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本 书 涵盖 了 新 能 源 汽 车 的 车 联网 技术 、 大 数据 应 用 的 业务 需求 、 大 数 
据 分 析 与 基础 理论 、 大 数据 的 采集 与 处 理 、 和 车辆 运行 大 数据 统计 分 析 与 应 
用 实例 等 内 容 , 详细 介绍 了 车 联网 车 载 数据 采集 、 网 络 通信 等 方法 的 实现 
和 应 用 , 并 以 较 多 实例 展示 了 新 能 源 汽 车 大 数据 的 应 用 , 可 为 从 事 车 联网 
和 大 数据 分 析 工 作 的 研究 人 员 和 相关 工作 者 提供 借鉴 和 参考 , 对 新 能 源 汽 
车 大 数据 的 平台 构建 、 数 据 管理 、 数 据 应 用 有 很 实用 的 指导 意义 。 
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在 新 能 源 汽车 成 为 战略 新 兴 产 业 之 一 等 国家 战略 的 青 景 下 ， 以 纯 电 动 汽 车 和 燃 
料 电池 汽车 、 插 电 式 混合 动力 汽车 为 代表 的 新 能 源 汽 车 ， 作 为 能 源 网 络 中 用 能 、 储 
能 和 回馈 能 源 的 终端 ， 成 为 我 国力 至 经 济 新 体系 中 的 重要 组 成 部 分 。 我 国 经 过 4 
个 五 年 计划 的 科技 攻 天 ， 基 本 掌握 了 新 能 源 汽 车 的 整 车 拉 术 和 关键 零 部 件 搁 术 ， 实 
现 了 跨越 式 友 展 ， 并 逐步 实现 了 产业 化 。 

但 是 ,在 世界 这 个 完全 开放 的 市 场 中 ,中国 新 能 源 汽 车 核心 关键 技术 尚未 彻 搬 
突破 ， 技 术 苋 搜 压 力 越 来 越 大 ， 加 快 新 能 源 汽车 持续 创新 ， 推 进 中 国 汽车 产业 技术 
转型 升级 ， 古 中 国 科 扩 发 展 的 重大 战略 需求 。 尽 管 我们 头顶 兰 全 球 最 大 新 能 源 汽 车 
市 场 的 光环， 但 中 国 的 新 能 源 汽车 产业 正人 遭遇 厦 成 长 的 烦恼 : 

1. 与 国际 先进 水 平和 市 场 需求 相 比 ， 中 国 的 新 能 源 汽车 技术 水 平 及 产品 性 能 
需要 进一步 所 局 。 

2. 示范 区 域 的 市 场 友 展 尚 不 平衡 。 

3. 充电 基础 设施 发 展 汪 后 ， 建 成 充电 桩 总 体 使 用 率 较 低 。 

4. 推广 政 东 尚 存 在 颖 际 。 

本 套 从 书 将 聚焦 于 新 能 源 汽车 整 车 、 堆 部件 关键 扩 术 ， 以 及 与 新 能 源 汽 车 配套 
的 科技 体系 和 产业 链 ， 邀 请 行业 内 各 领域 一 直 从 事 研究 和 试验 工作 的 产品 第 一 线 技 
术 人 员 编 写 ， 内 容 系 统 、 科 学 ， 极 具 实 用 性 ， 和 希望 能 够 为 我 国 新 能 源 汽 车 的 持续 发 
展 提 供 撤 术 文 撑 和 乔 力 文 持 。 
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随 独 电子 信息 技术 的 进一步 及 展 ， 电 气 化 、 重 能 化 及 网 联 化 成 为 当今 汽车 工 
业 发 展 的 主旋律 。 本 书 是 在 新 能 源 汽 车 国家 大 数据 联盟 的 文 持 下 出 版 的 一 本 跨 领 
域 的 专著 ， 有 是 新 能 源 汽车 + 车 联网 + 大 数据 知识 的 全 面 融合 。 

近 几 年 来 ， 随 着 计算 机 和 信息 技术 的 迅猛 发 展 和 普及 应 用 , 行业 应 用 系统 的 规 
模 迅 速 扩大 ， 行 业 应 用 所 产生 的 数据 呈 爆 炸 性 增长 。 动 辑 达 到 数 昕 太 字 节 (1TB= 
1024GB) 甚至 数 十 至 数 百 拍 字 节 (1PB=1024TB) 规模 的 行业 /企业 大 数据 已 远 远 
超出 了 现 有 传统 的 计算 技术 和 信息 系统 的 处 理 能 力 。 因 此 ， 寻 求 有 效 的 大 数据 处 
理 技 术 、 方 法 和 手段 已 成 为 业界 的 迫切 需求 。 

车 联网 (Connected Vehicles) 是 由 车 辆 位 置 、 行 驶 速度 、 行 驶 路 线 等 构成 的 
言 恩 交互 网 络 ,是 一 种 回信 息 通 信 、 环 保 、 贡 能 、 安 全 方 同 发 展 的 车 -网 联合 技术 。 
数据 是 车 联网 的 基础 ， 车 联网 打通 了 传统 数据 扳 品 ， 在 人 一 车 一 基础 设施 之 间 进 
行 信息 交互 ， 连 点 成 线 ， 连 线 成 网 ， 实 现 人 一 车 一 环境 的 信息 通信 无 颖 融合 。 

因为 结构 人 简单、 电子 设备 配置 齐全 ， 所 以 新 能 源 汽车 是 车 联网 的 最 佳 载体 。 
新 能 源 汽 车 运行 所 产生 的 数据 规模 极其 庞大 ， 和 车辆 技术 和 大 数据 技术 的 结合 ， 能 
冬 握 出 更 有 价值 的 资源 和 财主 。 在 未 来 及 展 中 ， 大 数据 与 车 辆 技术 的 结合 将 会 成 
为 非常 有 前 景 的 学 科 和 研究 领域 ， 需 要 大 量 的 人 才 和 资源 进行 文 撑 。 

目前 全 世界 的 专家 、 学 者 、 相 关 行 业 人 员 ， 以 及 政府 、 高 校 、 公 司 等 各 大 组 
织 机 构 都 在 致力 于 研究 和 开发 车 辆 大 数据 相关 领域 , 并 推进 该 领域 的 进步 和 发 展 。 

本 书 涵盖 了 新 能 源 汽车 的 车 联网 技术 、 大 数据 应 用 的 业务 需求 、 大 数据 分 析 
与 基础 理论 、 大 数据 的 采集 与 处 理 、 车 辆 运行 大 数据 统计 分 析 与 应 用 实例 等 内 容 ， 
详细 介绍 了 车 联网 车 载 数 据 采 集 、 网 络 通 信 等 方法 的 实现 和 应 用 ， 并 以 较 多 实例 
展示 了 新 能 源 汽车 大 数据 的 应 用 ， 可 为 从 事 车 联网 和 大 数据 分 析 工 作 的 研究 人 员 
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和 相关 工作 者 提供 借鉴 和 参考 ， 对 新 能 源 汽车 大 数据 的 平台 构建 、 数 据 管 理 、 数 
据 应 用 有 很 强 的 指导 意义 。 国 内 还 没有 像 这 样 将 新 能 源 汽车 行业 和 大 数据 应 用 结 
合 起 来 的 图 书 。 本 书 适合 与 新 能 源 汽车 行业 相关 的 从 业 人 员 ， 从 事 相 关 科 研 项 目 
或 相关 专业 的 教师 、 学 者 ， 以 及 本 科 生 、 研 究 生 阅读 。 

本 书 在 撰写 过 程 中 得 到 了 科技 部 高 新 技术 发 展 及 产业 化 司 ， 国 家 自然 科学 基 
金 委员 会 ， 北 京 市 科 委 双 新 处 、 科 室 处 、 新 能 源 汽车 发 展 促进 中 心 以 及 其 他 有 关 
单位 和 领导 的 大 力 文 持 与 帮助 ， 在 此 对 他 们 表示 衷心 的 感谢 。 本 书 是 项 目 “ 大 数 
据 驱 动 的 服务 运营 系统 性 优化 与 管理 一 一 以 新 能 源 汽 车 为 例 ”( 项 目 批准 号 : 
91746210)、 课 题 “ 基 于 大 数据 的 新 能 源 公 交 客 车 运行 监测 与 管理 关键 技术 研究 ” 
(课题 编号 : 2017YFC0840205) 和 课题 “电动 汽车 产业 培育 要 素 分 析 研 究 ”( 诬 题 
编号 : 2171100003217074) 的 研究 成 果 之 一 。 

限于 作者 水 平和 条 件 所 限 , 书 中 难免 有 不 尼 和 错漏 之 处 ， 恳 请 读者 批评 指正 。 
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汽车 作为 人 们 日 名 出 行 中 重要 的 交通 工具 ， 目 1886 年 发 明 以 来 经 过 了 100 
多 年 的 发 展 历程 。 这 不 仅仅 是 汽车 的 及 展 历史 ， 也 代表 了 现代 工业 文明 的 发 展 轨 
迹 。 可 以 说 汽车 是 人 类 技术 友 展 方 回 的 一 个 重要 载体 ， 人 类 每 一 次 的 拉 术 进步 都 
会 在 车 辆 制造 上 有 相应 的 体现 。 进入 21 世纪 以 来 , 人 们 对 于 汽车 改造 的 主要 方向 
是 让 汽车 在 满足 原 有 的 运载 能 力 的 基础 上 实现 节能 减 排 以 及 车 辆 网 联 化 的 目的 。 
本 章 将 对 目前 汽车 的 发 展 趋势 进行 介绍 ， 并 着 重 介绍 目前 在 汽车 工业 领域 研究 友 
展 十 分 迅猛 的 车 联网 拉 术 和 车 辆 大 数据 分 析 与 应 用 技术 。 

















汽车 电气 化 与 智能 化 


1.1.1 电气 化 


随 着 社会 的 迅速 发 展 ， 能 源 和 危机 已 成 为 世界 上 绝 大 多 数 国 家 都 必须 要 面 对 的 
问题 。 化 石 能 源 作为 不 可 再 生 能 源 ， 将 在 可 预见 的 未 来 成 为 稀缺 资源 。 而 汽车 是 
消耗 化 石 能 源 的 主要 工业 品 之 一 ， 其 尾气 排放 引起 的 环境 污染 问题 也 日 益 严 峻 。 
在 节能 减 排 的 迫切 需求 下 ， 新 能 源 汽车 凭借 其 能 源 经 济 性 与 环境 友好 性 在 汽车 产 
业 中 得 到 了 企业 和 消费 者 的 一 致 青睐 。 

新 能 源 汽车 在 解决 能 源 与 环境 问题 上 有 着 巨大 的 潜力 。 首 先 ， 作 为 电气 化 核 
心 部 件 ， 驱 动 电机 的 效率 非常 高 ， 最 高 能 达到 97%， 相 对 于 发 动机 大 约 30% 的 热 
效率 有 着 巨大 的 优势 。 此 外 ， 电 机 的 全 工 况 效率 很 高 ， 有 着 “ 双 80” 的 说 法 ， 即 
80% 以 上 的 工 况 下 的 效率 都 是 在 80% 以 上 的 ， 这 是 传统 内 燃 机 远 达 不 到 的 。 而 且 
在 驱动 电机 的 配合 下 ， 能 够 实现 传统 动力 总 成 的 效率 最 大 化 。 以 君越 30H 为 例 ， 
在 驱动 电机 的 配合 下 ， 发 动机 可 以 采用 米 勒 循环 (或 称 阿 特 金 森 循 环 )， 发 动机 最 
高 效率 可 达 40%， 而 通过 双 电 机 与 双 行星 排 的 配合 ， 可 以 让 发 动机 一 直 工 作 在 最 
高 效 区 域 。 
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目前 ， 全 球 几 乎 所 有 主流 车 企 都 在 大 力 推 广 新 能 源 汽车 。 在 美国 、 日 本 、 欧 
洲 等 发 达 国 家 ， 政 府 纷纷 出 台 各 种 扶持 和 优惠 政策 ， 在 技术 研发 、 税 收 、 补 贴 等 
方面 近 供 支 持 来 大 力 推 动 新 能 源 汽车 友 展 ， 引 叶 新 能 源 汽 车 产业 从 由 政府 主导 到 
市 场 消费 推动 。 里 然 新 能 源 汽车 目前 还 处 于 产业 化 和 两 业 化 的 初期 阶段 ， 但 友 展 
新 能 源 汽车 已 成 为 全 球 汽车 业 未 来 发 展 的 重点 方 癌 。 


1.1.2 智能 化 


随 着 互联 网 技术 、 通 信 技 术 、 人 工 吞 外 和 有 
经 成 为 一 种 潮流 和 趋势 。 从 智能 手机 、 智 能 家 电 ， 到 企业 的 智能 制造 、 智 和 
等 ， 智 能 化 已 经 渗透 到 整个 社会 的 各 行 各 业 。 在 “工业 4.0”“ 智 能 交通 ”智慧 城 
市 ”和 “互联 网 +” 的 大 背景 下 , 汽车 智能 化 已 经 成 为 汽车 产业 发 展 的 重要 潮流 和 
趋势 。 

智能 汽车 在 解决 能 源 、 安 全 和 环境 问题 上 具有 巨大 的 潜力 ， 例 如 : 通过 采用 
自动 要 驶 技术 能 够 减少 90% 由 于 人 为 操作 引起 的 交通 事故 ， 通 过 车 -车 通信 和 智 
能 速度 规划 ， 在 智能 化 发 展 的 前 期 可 以 将 道路 通行 率 提 高 10% 以 上 ， 在 高 度 自 动 
化 阶段 可 以 将 道路 通行 率 提高 $S0% 一 90%; 在 节能 减 排 方面 ， 通 过 经 济 性 驾驶 和 
整体 智能 交通 规划 ， 能 源 消耗 至 少 能 降低 1$% 一 20%。 由 于 智能 汽车 存在 的 巨大 
潜力 ， 汽 车 的 智能 化 已 经 成 为 行业 发 展 的 热点 ， 并 且 正 在 引发 行业 的 巨大 变革 。 
可 以 预见 ， 汽 车 的 电动 化 与 智能 化 将 会 对 传统 的 汽车 行业 格局 产生 很 大 的 冲击 。 
如 果 说 汽车 的 电气 化 只 是 将 汽车 的 动力 由 内 燃 机 换 为 电动 机 ， 对 传统 汽车 行业 的 
格局 的 改变 有 限 ， 那 么 汽车 的 智能 化 就 是 把 一 辆 汽车 变化 成 一 辆 有 着 自己 智慧 的 
机 器 。 

在 车 辆 智能 化 的 背景 下 ， 世 界 各 国 纷纷 制定 相应 的 汽车 智能 化 研究 计划 ， 
吹 上 盟 、 美 国 和 日 本 均 发 布 政 集 法 规 来 推动 智能 网 联 汽 车 发 展 。 中 国 在 《中 国 制 
造 2025》 中 也 明确 给 出 了 汽车 智能 化 技术 的 总 体 目 标 ,， 即 制定 中 国 自主 驾驶 标 
准 : 基于 多 源 信息 融合 、 多 网 融合 , 利用 人 工 智 能 、 深 度 挖掘 及 自动 控制 技术 ， 
配合 智能 环境 和 辅助 设施 实现 自主 驾驶 ; 可 改变 出 行 模 式 、 消 除 拥堵 、 提 高 道 
路 利用 率 ; 装备 自动 驾驶 系统 的 汽车 ， 综合 能 耗 较 常 规 汽 车 降低 10%， 排 放 减 
少 20%， 交 通 事 故 次 数 减 少 80%， 基 本 消除 交通 死亡 。 在 《中 国 制造 2025》 
后 ， 国 家 工业 和 信息 化 部 、 发 改 委 、 测 绘 局 等 相关 部 委 出 台 多 部 政策 ， 从 汽车 
智能 化 、 网 联 化 、 智 能 制造 、 地 图 信息 采集 、 大 数据 等 多 个 方面 促进 智能 汽车 
的 发 展 。 
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信息 化 的 车 联网 


物 联网 被 称 为 是 继 计算 机 、 互 联网 之 后 世界 信息 产业 发 展 的 第 三 次 痕 湖 。 在 
中 国 ， 物 联网 已 经 补正 式 列 为 国家 五 大 新 兴 战 略 性 产业 之 一 ， 而 车 联网 是 战略 新 
兴 产 业 中 物 联 网 与 智能 汽车 两 大 领域 的 重要 区 集 。 通 过 车 联网 技术 ， 汽 车 广 丙 能 
够 为 消费 者 提供 全 方位 的 个 性 化 服务 ,提升 消费 者 的 使 用 体验 ; 此 外 ， 通 过 汽车 、 
道路 和 基础 设施 的 相互 联通 (图 1-1 和 图 1-2)， 能 够 有 效 提 高 道路 通行 效率 ， 城 
少 交 通 辜 撞 事故 的 肥 生 ; 男 外 ， 车 联网 技术 还 能 够 降低 交通 对 环境 的 有 影响， 在 坏 
境 保护 方面 也 友 挥 着 重要 的 作用 。 


人 







~ ©® 







图 1-1 汽车 与 汽车 的 相互 联通 








1-2 汽车 与 基础 设施 的 相互 联通 


1.2.1 车 联网 技术 
根据 中 国 物 联网 校 企 联盟 的 定义 ， 车 联网 (Internet of Vehicles) 是 由 车 辆 位 
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置 、 速 度 和 路 线 等 信息 构成 的 巨大 交互 网 络 。 通 过 GPS、RFID、 传 感 器 、 摄 像 头 
图 像 处 理 等 装置 ， 和 车辆 可 以 完成 目 身 环境 和 状态 信息 的 采集 ; 通过 互联 网 技术 ， 
所 有 和 车辆 可 以 将 自身 的 各 种 信息 传输 汇聚 到 中 央 处 理 器 ;通过 计算 机 技术 ， 这 些 
车 辆 的 信息 可 以 被 分 析 和 处 理 ， 从 而 计算 出 不 同 车辆 的 最 佳 路 线 ， 并 及 时 汇报 路 
况 、 安 排 信 号 灯 周 期 。 简 言 之 ， 车 联网 是 以 车 、 路 以 及 道路 的 基本 设施 为 节点 组 
成 网 络 ， 用 以 实现 车 与 车 、 和 车 与 人 、 和 车 与 路 的 信息 交换 ， 利 用 先进 的 技术 (包括 
网 络 技术 、 传 感 器 技术 、 控 制 技术 、 计 算 技 术 、 智 能 技术 等 ) 实现 安全 防护 、 智 
能 驾驶 、 车 辆 售后 服务 、 位 置 服务 ， 最 终 达 到 提高 交通 效率 、 提 升 道路 通行 能 力 、 
降低 交通 事故 等 目的 。 
车 联网 的 基本 架构 如 网 1-3 所 示 。 
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图 1-3 车 联网 的 基本 架构 


根据 车 联网 的 基本 框架 结构 ， 为 保证 车 联网 系统 顺利 工作 ， 弟 先 要 通过 感知 
技术 、 车 载 信息 终端 以 及 路 边 系统 设备 ， 实 现 对 和 车辆 目 映 的 位 置 、 速 度 、 加 速度 、 
行进 方 回 等 行驶 和 运行 信息 以 及 车 辆 外 在 属性 (如 道路 、 人 和 环境 ) 等 信息 的 所 
取 ， 通 过 轻 量 级 的 车 载 设 备 完 成 和 车辆 相关 信息 的 收集 和 处 理 ， 同 时 接收 和 执行 来 
目 上 层 的 智能 交通 和 信息 服务 等 交互 控制 指令 。 在 该 过 程 中 ， 汽 车 既是 数据 的 收 
集 和 感应 占 ， 也 是 实时 信息 的 发 布 者 。 
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车 联网 基于 GPRS、3G、4G 以 及 未 来 通信 网 络 (5G) 等 移动 通信 网 络 和 帘 
带 无 线 城 域 网 络 基 础 设施 ， 实 现 运行 系统 (车 辆 信息 系统 、 路 网 信息 、 信 息 末 集 
基站 系统 和 运行 管控 服务 中 心 系统 ) 和 运营 系统 (运营 管控 平台 系统 、 关 键 服务 
子 系 统 ) 之 则 的 数据 传输 。 然 后 通过 移动 无 线 网 和 专用 核心 网 实现 汽车 信息 源 与 
数据 中 心 之 间 的 信息 传输 ， 提 供用 户 终端 连接 和 对 用 户 终端 的 管理 ， 完 成 对 业务 
的 承载 。 作 为 承载 网 络 提供 到 外 部 网 络 的 接口 ， 从 而 实现 汽车 各 种 服务 、 管 理 和 
服务 交互 过 程 的 控制 。 

最 后 ， 数 据 平台 能 够 对 在 网 车 辆 和 设施 产生 的 海量 数据 的 存储 和 处 理 提供 支 
撑 ， 同 时 集成 其 他 服务 基础 数据 ， 为 智能 交通 管控 和 车 载 信 息 服 务 提供 文 撑 。 智 
能 交通 管理 中 心 拥 有 超大 的 数据 库 和 数据 分 析 能 力 ， 用 以 存储 、 分 析 从 路 边 设施 
传 来 的 数据 ， 并 根据 分 析 结 果 发 送 相 应 指令 。 车 载 信息 服务 与 运营 中 心 负责 面 问 
不 同类 型 用 户 提 供 开 放 多 样 的 车 载 信息 服务 , 同时 提供 安全 可 靠 的 运营 支撑 环境 ， 
支持 具有 新 型 服务 形态 和 商业 模式 的 车 联网 应 用 的 开展 。 

为 实现 以 上 过 程 及 服务 ， 有 一 些 关 键 的 技术 需要 和 解决， 包括 异 构 无 线 网 络 的 
融合 、 全 面 的 感知 、 智 能 化 信息 处 理 、 与 新 能 源 汽车 的 整合 。 具 体 来 说 ， 车 联网 
需要 解决 的 关键 性 技术 问题 可 总 结 为 以 下 4 条 。 

(1) 异 构 无 线 网 络 的 融合 

在 车 联网 中 将 有 多 种 不 同 的 无 线 通 信 技 术 并 存 ， 包 括 WLAN (如 IEEE 
802.11a/b/g/n/p 协议 )、WIMAX (IEEE802.16a/e )、 超 宽带 通信 UWB (IEEE 
802.15.3a)、2G/3G/4G/5G 蜂 宽 通信 、LTE 以 及 卫星 通信 等 网 络 。 不 同 的 网 络 有 
不 同 的 通信 方式 和 特点 ， 适 用 于 不 同 的 场景 。 为 了 达到 信息 共享 的 目的 ， 车 载 
网 中 的 很 多 信息 需要 在 不 同 的 网 络 中 传递 。 同 时 ， 和 车辆 作为 一 个 移动 单元 ， 在 
移动 过 程 中 将 发 生 水 平 切 换 和 垂直 切换 ， 也 需要 进行 移动 性 管理 。 因 此 ， 需 要 
在 车 联网 环境 下 考虑 异 构 无 线 网 络 的 融合 ， 实 现 无 颖 的 信息 交换 和 无 颖 的 网 联 
切换 需求 。 

(2) 全 面 的 感知 

车 联网 想 要 为 地 面 交 通 提 供 极限 通行 能 力 ， 首 先 必须 依赖 于 全 面 的 感知 ， 包 
括 对 整个 道路 的 感知 和 对 车 辆 的 感知 ， 从 而 分 别 结合 道路 和 和 车辆 获取 相应 的 状态 
信息 。 如 今 ， 各 种 不 同类 型 的 感知 节点 已 经 大 量 应 用 于 地 面 交 通 。 如 何 将 这 些 多 
元 的 感知 节点 进行 有 效 的 利用 是 一 个 非常 关键 的 问题 。 它 涉及 感知 节点 的 选择 、 
功能 定位 (如 汇聚 节点 )、 布 局 、 特 征 提取 与 分 析 以 及 多 元 信息 的 融合 。 车 内 感知 
和 车 外 感知 考虑 的 重点 不 一 样 ， 而 道路 的 感知 与 车 辆 状态 的 感知 关注 的 重点 也 不 
一 样 。 比 如 ， 道 路 感知 对 路 面 是 否 结 冰 很 关心 ， 但 车 辆 感知 可 能 更 关心 车 辆 的 行 
驶 速度 和 当前 的 位 置 。 
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(3) 智能 化 信息 处 理 

车 联网 不 仅 涉 及 众多 的 节 扣 ,而 且 可 能 存在 各 种 各 样 的 业务 并 友 运 行 的 情况 ， 
因此 车 联网 需要 考虑 云 计算 或 并 行 处 理 提 高 运算 能 力 。 车 联网 收集 到 的 交通 信息 
量 非 常 巨 太 ， 如 果 不 对 这 些 数 据 进行 有 效 处 理 和 利用 ， 丈 会 迅速 被 新 的 信息 所 泽 
没 。 因 此 需要 采用 数据 挖掘 、 人 工 留 能 等 方式 提取 有 效 信 息 ， 同 时 过 涛 挥 无 用 信 
恩 。 考 夸 到 和 车辆 行驶 过 程 中 需要 依赖 的 信息 具有 很 大 的 时 间 和 空间 关联 性 ， 有 些 
言 恩 的 处 理 需 要 非常 及 时 。 夯 外， 很 多 车 联网 的 应 用 与 车 辆 行驶 的 速度 和 当前 的 
位 置 有 密切 的 关系 ， 因 此 如 何 基于 速度 和 位 置 做 移动 预测 ， 并 建立 业务 自 适 应 的 
触及 机 制 显得 非 营 必要 。 

(4) 与 新 能 源 汽车 的 整合 

新 能 源 汽 车 和 未 来 的 交通 基础 设施 之 间 存 在 密切 的 互动 天 系 ， 也 是 车 联网 中 
一 个 重要 组 成 部 分 。 尽 管 新 能 源 汽车 在 环保 方面 比 传统 汽车 做 得 更 好 ， 但 在 近期 
内 ， 续 驶 里 程 、 充 电 时 间 和 电量 可 持续 性 等 都 是 其 软肋 。 目 前 新 能 源 汽车 的 续 驶 
里 程 还 十 分 有 限 ， 因 此 车 联网 必须 与 智能 电网 相 融 合 ， 近 前 规划 好 充电 路 径 ， 以 
满足 长 时 间 行 驶 的 需求 。 些 外， 新 能 源 汽车 拥有 比 传统 的 内 燃 机 汽车 更 先进 的 远 
程 信息 处 理 和 导航 技术 ， 这 样 可 以 更 好 地 对 交通 流量 进行 控制 ， 减 少 交 通 拥堵 ， 
并 从 整体 上 提高 交通 安全 性 。 不 同 服务 提供 丙 之 间 通 过 数据 交换 也 可 以 允许 增值 
服务 的 跨 地 区 共 圣 ， 以 信息 通信 技术 为 基础 的 叶 航 系统 可 以 将 新 能 源 汽车 更 好 地 
集成 到 交通 基础 设施 中 。 

车 联网 具有 广阔 的 应 用 前 景 和 商用 价值 , 车 联网 能 所 供 的 主要 应 用 见 表 1-1。 


表 1-1 车 联网 能 提供 的 主要 应 用 













































































分 类 具体 应 用 
交通 管理 方面 智能 停车 场 管 理 系统 、 智 能 收费 系统 、 自 动 路 径 导 航 系统 、 智 能 车 辆 调度 系统 、 
智能 交通 信号 灯 管 理 系统 等 
公共 交通 方面 智能 公交 车 查询 系统 、 智 能 收费 系统 等 
物流 运输 方面 物流 监测 系统 、 智 能 车 辆 管理 系统 、 货 物 实时 监测 系统 等 
公共 安全 方面 智能 预警 系统 、 疲 劳 驾驶 监测 系统 、 车 辆 状况 监测 系统 、 智 能 超速 超载 报警 系 
生 统 等 
商业 增值 服务 方面 视频 会 议 、 网 络 游戏 、 在 线 影 音 、 数 据 下 载 、 网 络 学 习 、 网 络 办 公 等 


目前 世界 各 车 企 均 展开 了 车 联网 系统 的 研究 ， 市 场 上 的 主流 车 联网 系统 有 : 
奔驰 智能 车 联网 系统 、 至 马 iDrive、 奥 迪 MMI、 通 用 OnStar、 福 特 SYNC、 海 马 
HM-Link、 上 汽 inkaNet、 比 亚 迪 云 服务 、 凯 迪 拉 元 CUE 系统 、 丰 田 G-BOOK、 
莫非 尼 迪 InTouch、 观 致 云 平台 和 闭 尔 湛 Sensus 等 。 
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1.2.2 内 外 发 展 历史 及 现状 


(1) 美国 

早 在 20 世纪 50 年 代 ， 部 分 美国 私营 公司 开始 研发 汽车 自动 控制 系统 。20 世 
纪 60 年 代 ， 美 国政 府 交 通 部 门 开始 研究 电子 路 会 引导 系统 (ERGS)。 

1999 年 ， 美 国联 邦 通信 委员 会 将 5.9GHz 的 75MHz 带宽 用 作 DSRC。DSRC 
则 成 为 车 辆 和 基础 信息 通信 的 重要 通信 技术 。 

2002 年 ，DSRC 技术 的 标准 化 促进 了 移动 通信 网 络 ， 尤 其 是 车 联网 的 研究 和 
应 用 。2004 年 ， 美 国电 气 和 电子 工程 师 协会 (IEEE) 开始 基于 ADTM 标准 对 
802.11P 进行 修订 并 开始 制定 WAVE 标准 。 

2004 年 , 美国 计算 机 协会 天 于 车 联网 的 国际 标准 研讨 会 第 一 次 在 美国 费城 召 
开 ， 并 创造 “VANET” 一 词 ， 即 常 说 的 车 联网 。 

2006 年 ， 美 国 交 通 运输 部 (DOT) 联手 部 分 汽车 制造 商 ， 对 V2V 安全 应 用 
程序 原型 进行 开发 和 测试 ， 提 高 车 载 安全 系统 在 自 适 应 控制 方面 的 性 能 。 同 年 ， 
提出 车 辆 基础 设施 一 体 化 〈VILI) 概念 。 

2009 年 5 月 , 局 动 商 用 车 基础 设施 一 体 化 工程 。 同 年 12 月 , DOT 发 布 了 《 智 
能 交通 系统 战略 研究 计划 : 2010 一 2014》， 目 标 是 利用 无 线 通信 建立 一 个 全 国 性 多 
模式 的 地 面 交 通 系统 ， 形 成 车 辆 、 道 路 基础 设施 、 乘 客 的 便携 式 设备 之 间 互 联 的 
交通 环境 。 

2011 年 8 月 一 2012 年 初 ， 针对 车 联网 技术 , 美国 在 六 个 不 同 地 区 进行 了 现实 
环境 下 轨 驶 员 安 全 要 驶 测试 ， 用 以 评估 用 户 对 新 的 V2V 技术 的 接受 程度 。2012 
年 秋天 一 2013 年 秋天 ， 继 续 开展 对 安全 要 驶 模型 的 研究 工作 ， 以 测试 车 联网 安全 
技术 的 有 效 性 。 

2012 年 12 月 ，DOT 发 布 了 《2015 一 2019 ITS 战略 计划 》( 图 1-4)， 就 有 关 
美国 下 一 代 智 能 交通 系统 (Intelligent Transport System，ITS) 战略 研究 计划 草案 
进行 了 对 话 与 讨论 ， 确 立 了 下 一 代 ITS 研究 和 发 展 的 重点 和 主题 ， 以 满足 新 兴 的 
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2014 年 ， 美 国 研究 与 特殊 项 目 管理 局 有 发布 了 “和 价 能 交通 战略 研究 计划 〈2015 一 
2019)”。 该 计划 在 下 一 个 五 年 里 会 将 研究 重点 集中 于 互联 汽车 、 目 动 轨 驶 、 新 兴 
功能 、 企 业 数 据 、 协 同性 及 加 速 产业 扩张 六 大 领域 。 

如 今 美 国 车 联网 进入 快速 发 展 阶 段 ， 有 具体 表现 为 : 硬件 价格 大 幅 下 降 ， 大 部 
分 客户 可 以 接受 ; 美国 车 联网 服务 所 提供 的 信息 服务 、 安 全 保障 、 即 时 通信 、 多 
媒体 娱乐 等 方面 已 经 可 以 全 方位 满足 用 户 要 求 。 

(2) 目 本 

日 本 是 全 球 车 联网 的 先行 者 。1981 年 ， 本 田 汽车 公司 与 日 本 消费 电子 厂 阐 阿 
尔 派 合 作 共 同 研发 推出 了 世界 第 一 于 陀螺 仪 车 载 导航 ， 并 在 此 基础 上 率先 推出 了 
车 联网 服务 ， 与 移动 互联 网 相 融 合 ， 增 强 汽 车 用 户 的 符 性 。 

20 世纪 80 年 代 中 期 一 90 年 代 中 期 , 日 本 相继 完成 了 路 -车 通信 系统 、 交 通信 
息 通 信和 系统 、 超 智能 车 辆 系统 、 安 全 车 辆 系统 等 方面 的 研究 。 

2000 年 4 月 , 日 本 ETC 国家 行动 计划 开始 正式 实施 ， 目 标 是 2003 年 3 月 前 
在 全 国 范 围 内 建设 至 少 900 个 收费 站 , 实现 高 速 公 路 联网 不 停车 收费 和 服务 系统 。 

2003 年 7 月 ,智能 交通 系统 战略 委员 会 发 布 了 《日 本 智能 交通 系统 战略 规划 》， 
对 智能 交通 系统 的 短期 和 中 长 期 的 发 展 构 想 做 出 了 战略 规划 。 同 年 车 联网 信息 系 
统 道 路 交通 信息 通信 系统 (VICS) 基本 和 才 新 全 日 本 。 截 人 宇 2013 年 年 末 ， 日 本 安 
活该 系统 的 车 辆 已 超 3000 万 辆 ， 占 同期 日 本 汽车 保有 量 的 40%。 

2011 年 ， 日 本 全 国 高 速 公 路 系统 引进 “ITS 站 点 智能 交通 系统 ”， 它 能 够 及 时 
问 车 载 导 航 系 统 快速 提供 海量 交通 信息 和 图 像 ， 有 效 缓解 了 区 通 拥堵 并 改善 了 区 
驶 环境 。 

2013 年 , 本 田 汽车 公司 在 高 端 车 认 歌 上 推出 了 基于 云端 的 车 联网 服务 “Acura 
Link”( 图 1-5)， 包 括 紧 急救 援 、 车 辆 防盗、 远程 控制 、 远 程 诊断 、 你 养 通知 、 
人 工 搜 索 和 实时 路 况 等 功能 。 和 凭借 着 高 上 度 的 车 联网 ， 本 田 谍 歌 用 户 从 此 不 再 是 一 
个 人 的 驾驶 ， 在 其 背后 有 一 整套 完备 的 云端 体系 ， 及 时 地 推送 细致 周到 的 服务 提 
升 驾 驶 体验 。 

(3) 欧洲 

在 欧洲 ,“ 以 项 目 促 发 展 ” 是 欧洲 车 联网 产业 的 一 个 显著 特点 ， 同 时 欧洲 车 联 
网 产业 把 交通 信息 和 安全 作为 主要 攻坚 方 同 。 

2009 年 8 月 ， 欧 盟 发 布 一 份 政策 文件 ， 要 求 成 员 国 的 政府 及 相关 行业 落实 
eCall 计划 。eCall 计划 是 指 在 车 辆 内 安装 一 个 黑匣子 ， 当 汽车 发 生 重 大 交通 事故 
时 ， 系 统 能 自动 拨打 欧盟 国家 统一 急救 电话 112。 欧 盟 要 求 其 各 成 员 国 从 2011 年 
开始 推行 这 项 计划 ,并 于 2014 年 全 部 车 辆 必须 安装 完毕 。 各 大 汽车 制造 商 和 运营 
丙 也 同时 利用 这 个 机 会 提供 其 他 在 线 服务 。 
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24 小 时 365 天 双向 通讯 网 络 


Acuraink 


(全 能 智 驾 ) 





1-$ Acura Link 


2011 年 1 月， 欧盟 委 员 会 正式 局 动车 联网 项 目 Drive C2X〔 图 1-6)， 以 解决 
道路 拥堵 、 空 气 污染 以 及 交通 事故 等 问题 。 

2014 年 7 月 ， 历 时 3 年 半 的 Drive C2X 项 目 宣告 成 功 ， 实 现 了 拥堵 预警 、 修 
路 预警 、 事 故 车 预警 、 天 气 预警 、 前 方 急 制 动 预 警 、 合 报表 预警 、 限 速 提示 、 红 
绿灯 速度 优化 等 功能 。7 月 16 日 ，Drive C2X 在 柏林 公布 了 其 试验 结果 。 数 据 表 
明 ， 如 果 这 一 体系 的 渗透 率 达 到 100%， 则 可 减少 23% 的 死亡 率 和 13% 的 受伤 率 ， 
同时 能 够 显 车 提升 环境 保护 和 交通 运行 效率 。 








1-6 Drive C2X 项 目 


(4) 中 国 

2007 年 12 月 初 ， 通 用 汽车 公司 与 上 汽 集 团 成 立 了 一 家 名 为 上 海安 吉星 信息 
服务 公司 的 合资 企业 ， 在 亚洲 市 场 推 出 通用 汽车 的 Onstar 服务 。 

2009 年 ， 赛 格 导航 、 好 帮手 、 城 际 通 等 企业 陆续 推出 相关 Telematics 车 载 信 





新 能 源 汽 车 
大 效 据 分 析 与 应 用 扩 林 


妃 服 务 系统 ， 标 志 痢 中 国 进 入 Telematics 时 代 。 

2010 年 ， 中 国 国 际 物 联网 ( 传 感 网 ) 博览 会 暨 中 国 物 联 网 大 会 提出 了 “车 联 
网 ”概念 ， 但 没有 实际 的 技术 和 产品 推出 。 同 年 10 月 ， 国 务 院 在 “863” 计 划 
中 提出 智能 车 、 路 协同 关键 技术 研究 以 及 大 城市 区 域 交 通 协 同 联 动 控制 关键 技 
未 碘 宛 。 

2014 年 7 月 ， 阿里 巴巴 与 上 汽 集团 签订 合作 协议 ， 开 展 互 联网 汽车 应 用 的 相 
关 研 发 ， 打 造 布局 互联 网 汽车 生态 圈 。 

2016 年 7 月 ， 上 汽 集 团 推 出 搭载 阿里 巴巴 YunOS 操作 系统 的 全 球 首 款 量 产 
互联 网 汽车 RX5 (图 1-7)。 


















md 
1-7 全 球 首 丈量 产 互 联网 汽车 RX5 














1.2.3 车 联网 发 展 趋势 


车 联网 将 会 是 未 来 互联 网 的 一 部 分 ， 未 来 的 车 辆 将 能 够 同 周围 的 其 他 车 辆 
或 环境 共享 信息 和 服务 ， 如 驾驶 信息 、 生 态 驾驶 信息 、 交 通 状 况 信 息 以 及 周转 
的 车 辆 和 环境 信息 。 车 联网 所 带动 的 新 兴 服 务 将 是 未 来 互联 网 服务 不 可 分 割 的 
组 成 部 分 。 

1. 未 来 的 车 辆 配置 

对 于 未 来 的 车 联网 发 展 ， 未 来 的 车 辆 均 应 配置 以 下 功能 : 

(QD 自动 控制 模块 : 自动 驾驶 。 

@) 车 辆 状态 感知 模块 : 胎 压 、 车 速 、 车 身 系统 、 硬 件 配置 是 否 工作 正常 。 

(8) 周围 环境 感知 : 交通 信息 、 道 路 信息 。 

由 驾驶 员 身 体 状态 感知 : 疲劳 度 、 注 意 力 。 

@ 无 线 通信 模块 : 与 路 侧 单元 、 周 围 车 辆 、 控 制 中 心 通信 。 
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@ 辅助 驾驶 模块 : 语音 控制 、 导 航 控制 、 定 位 精确 。 

@) 娱乐 信息 模块 : 网络 购物 、 聊 天 、 上 网 、 多 媒体 下 载 、 电 子 商 务 等 。 

@@ 其 他 硬件 配置 : 车 辆 身份 证 、 数 字 仪 表 、 自 动 空 调 、 感 应 乔 水 器 、 灯 光 
控制 、 电 控 座 椅 、 智 能 玻璃 〈 娱 乐 信 息 、 导 航 等 模块 数据 可 以 在 前 风 窗 玻璃 上 
甩 示 )。 

@) 软件 配置 ， 智能 交通 控制 系统 、 智 能 人 车 协同 系统 、 自 我 学 习 。 

2. 车 联网 发 展 趋势 

未 来 的 车 联网 发 展 趋 势 ， 主 要 体现 在 以 下 几 个 方面 : 

Q) 智能 交通 : 车 辆 本 身 就 是 一 个 通信 集线器 , 它 允 许 货物 和 数码 设备 连接 互 
联网 ， 提 供 车 队 管理 和 货运 信息 服务 。 例 如 : 跟踪 和 定位 货物 、 了 解 货物 状态 等 
这 些 服务 将 租 入 整个 货物 供应 链 和 物流 链 。 

@ 集成 式 移动 服务 : 传统 的 一 些 互 联网 服务 , 如 社交 网 络 等 以 后 将 迅速 出 现 
在 我 们 的 车 上 。 

@) 智能 协同 交通 : 车 辆 的 传感器 收集 信息 ， 通 过 某 种 方式 将 数据 发 往 云 中 
心 ， 云 中 心 将 数据 隔离 起 来 (网 络 安全 )， 然 后 将 数据 分 发 到 不 同 的 部 门 ， 利 用 这 
些 数据 进行 交通 控制 。 

由 敏捷 的 导航 系统 安装 卫星 导航 系统 的 汽车 将 接近 100%。 卫 星 导 航 系统 
根据 每 辆 车 提供 的 流量 数据 而 不 是 传统 的 基础 设施 采集 数据 。 部 分 导航 系统 将 与 
主流 的 交通 管理 控制 系统 一 体 化 ， 使 车 辆 能 快速 获取 系统 的 指示 和 建议 。 

在 世界 信息 产业 第 三 次 浪潮 物 联 网 鞍 勃 发 展 的 大 背景 下 ， 和 车 联网 的 发 展 前 景 
更 加 巨大 。 各 国 目 前 都 把 先行 抢占 车 联网 市 场 当 作 重 要 战略 目标 ， 各 汽车 制造 商 、 
IT 企业 都 对 这 块 蛋糕 虎视 蛇 耽 ， 也 直接 促进 目前 车 联网 产业 规模 初 具 雏形 。 目 前 
车 联网 在 解决 交通 拥堵 、 行 车 安全 、 轰 驶 者 体验 、 环 境 保护 等 方面 取得 了 一 定 的 
成 绩 ， 而 车 联网 真正 想 深 入 人 们 的 生活 ， 其 信息 采集 的 安全 度 及 公民 的 隐私 问题 
也 需要 正确 的 制度 去 约束 。 随 着 目前 国家 大 力 支 持 以 及 相关 车 企 的 持续 投入 ， 相 
信 在 不 久 的 将 来 车 联网 一 定 会 彻底 地 改变 人 们 的 出 行 体验 。 






































大 数据 闸 介 





随 独 计算 方法 、 物 联网 等 技术 的 发 展 , 数据 正 以 前 所 未 有 的 速度 增长 和 累积 ， 
大 数据 时 代 已 经 来 到 。 大 数据 开局 了 一 个 令 人 激动 的 全 新 时 代 。 大 量化 、 多 样 化 
的 数据 展现 出 无 与 伦比 的 商业 价值 ， 彻 后 颐 履 了 我 们 长 人 以来 形成 的 固化 的 思维 
方式 。 各 大 产业 开始 争先 您 后 拥抱 大 数据 ， 用 尺 一 切 手 段 去 挖掘 深 藏 在 数据 背后 
的 巨大 价值 。 
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1.3.1 大 数据 的 产生 与 发 展 


人 类 历史 上 从 未 有 哪个 时 代 和 今天 一 样 产 生 如 此 海量 的 数据 ， 数 据 的 产生 已 
经 完全 不 受 时 间 、 地 点 的 限制 。 从 开始 采用 数据 库 作 为 数据 管理 的 主要 方式 开始 ， 
人 类 社会 的 数据 产生 方式 大 致 经 历 了 三 个 阶段 。 正 是 数据 产生 方式 的 巨大 变化 ， 
才 最 终 导 致 大 数据 的 产生 。 

1. 运营 式 系统 阶段 

数据 库 的 出 现 使 得 数据 管理 的 复杂 性 大 大 降低 。 现 实生 活 中 ， 数 据 库 大 
都 为 运营 系统 所 采用 ， 作 为 运营 系统 的 数据 管理 子 系统 ， 比 如 超市 的 销售 记 
孙 系 统 、 银 行 的 交易 记录 系统 、 医 院 病 人 的 医疗 记录 等 。 人 类 社会 数据 量 第 
一 次 大 的 飞跃 是 运营 系统 开始 广泛 使 用 数据 库 。 这 个 阶段 最 主要 的 特点 是 数 
据 往 往 伴 随 着 一 定 的 运营 活动 而 产生 并 记录 在 数据 库 中 ， 比 如 超市 每 销售 出 
一 件 产 品 ， 束 会 在 数据 库 中 产生 一 条 对 应 的 销售 记录 。 这 种 数据 的 产生 方式 
是 被动 的 。 

2. 用 户 原创 内 容 阶段 

互联 网 的 诞生 促使 人 类 社会 数据 量 出 现 第 二 次 大 的 飞跃 。 但 是 真正 的 数据 爆 
发 产生 于 Web2.0 时 代 , 而 Web2.0 了 最 重要 的 标志 融 是 用 户 原 创 内 容 (User Generated 
Content，UGC)。 这 类 数据 近 几 年 一 直 呈 现 爆炸 式 的 增长 ， 主 要 有 两 方面 的 原因 : 
首先 是 以 博客 、 微 博 为 代表 的 新 型 社交 了 网络 的 出 现 和 快速 发 展 ， 使 得 用 户 产 生 数 
据 的 意愿 更 加 强烈 ， 其 次 就 是 以 入 能 手机 、 平 板 电 脑 为 代表 的 新 型 移动 设备 的 出 
现 ， 这 些 易 携 珊 、 全 天 候 接 入 网 络 的 移动 设备 使 得 人 们 在 网 上 发 表意 见 的 途径 更 
为 便捷 。 这 个 阶段 数据 的 产生 方式 古 主动 的 。 

3. 感知 式 系 统 阶段 

人 类 社会 数据 量 第 三 次 大 的 飞跃 最 终 导 致 了 大 数据 的 产生 ， 即 今天 我 们 正 处 
于 这 个 阶段 。 这 次 飞跃 的 根本 原因 在 于 感知 式 系统 的 广泛 使 用 。 随 着 技术 的 发 展 ， 
人 们 已 经 有 能 力 制 造 极 其 微小 的 带 有 处 理 功 能 的 传 感 问 ， 并 开始 将 这 些 设备 广泛 
地 布置 于 社会 的 各 个 角 洲 ， 通 过 这 些 设备 来 对 整个 社会 的 运转 进行 监控 。 这 些 设 
备 会 源源 不 断 地 产生 新 数据 。 这 种 数据 的 产生 方式 是 自动 的 。 

简单 来 说 ， 数 据 的 产生 经 历 了 和 被动、 主动 和 上 自动 三 个 阶段 。 这 些 被 动 、 主 动 
和 目 动 的 数据 共同 构成 了 大 数据 的 数据 来 源 ， 但 其 中 上 自动 式 的 数据 才 是 大 数据 产 
生 的 根本 原因 。 

随 看 数据 量 的 增长 ， 大 数据 处 理 技术 也 有 了 飞速 的 发 展 ，MapReduce 这 一 并 
行 处 理 技术 的 发 展 提高 了 数据 的 处 理 速度 。 云 计算 、 分 布 式 文件 存储 系统 等 技术 
的 发 展 为 大 数据 分 析 、 处 理 及 储存 提供 了 文 撑 。 此 外 ，Spark 的 出 现 大 大 提高 了 数 
据 处 理 效率 。Spark 是 一 个 开源 的 适用 于 大 数据 的 高 可 靠 、 高 性 能 、 分 布 式 并 行 计 
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算 框架 ， 是 隶属 于 加 州 大 学 伯克利 分 校 的 AMP 实验 室 的 产品 。Spark 文 持 在 大 数 
扼 集 上 进行 复杂 的 得 询 ， 能 够 轻 量 级 地 进行 快速 处 理 并 且 进 行 结果 准确 的 有 效 服 
务 ; 文 持 多 语言 编程 易于 使 用 ; 阅 容 性 很 好 ， 能够 与 Yam、Mesos、Hive、HBase 
和 HDFS 等 多 个 框架 进行 很 好 的 兼容 。 目 前 国内 很 多 公司 在 实际 生产 环境 中 已 经 
或 准备 大 规模 使 用 Spark。 

同时 , 现 有 计算 机 计算 能 力 的 提高 也 使 大 数据 的 快速 高 效 处 理 变 得 更 加 可 行 ， 
计算 机 领域 的 摩尔 定律 揭示 了 信息 技术 进步 的 速度 ， 广 义 的 运算 能 力 包 括 单位 价 
格 可 购买 和 使 用 的 硬盘 存 储 空间 ， 这 个 指标 以 远 超过 摩尔 定律 的 速度 增长 。 人 存储 
容量 增长 和 成 本 的 下 降 ， 是 加 速 大 数据 时 代 来 临 的 主要 原因 之 一 。20 世纪 70 年 
代 以 后 ， 计 算 机 用 集成 电路 的 集成 度 迅速 从 中 小 规模 友 展 到 大 规模 、 超 大 规模 的 
水 平 ， 做 处 理 占 和 人 微型 计算 机 应 运 而 生 ， 各 类 计算 机 的 性 能 迅速 提高 。 便 件 技 
术 的 发 展 及 计算 速度 的 迅速 提 局 为 大 数据 时 代 海 量 数据 的 快速 运算 提供 了 技术 
文 持 。 


1.3.2 大 数据 的 概念 与 特征 


大 数据 本 喘 是 一 个 比较 抽象 的 概念 ， 单 从 字面 来 看 , 它 表 示 数 据 规 模 的 庞大 。 
但 是 仅仅 数量 上 的 庞大 显然 无 法 看 出 大 数据 这 一 概念 和 以 入 的 “海量 数据 ” 
(massive data) “超大 规模 数据 ”(very large data) 等 概念 之 间 的 区 别 。 对 于 大 数 
据 尚 未 有 一 个 公认 的 定义 ， 不 同 的 定义 基本 是 从 大 数据 的 特征 出 友 ， 通 过 这 些 特 
征 的 阐述 和 归纳 试图 给 出 其 定义 。 在 这 些 定义 中 ， 比 较 有 代表 性 的 是 3V 定义 ， 
即 认 为 大 数据 需 满足 3 个 特点 : 规模 性 (volume )、 多 样 性 (variety〉 和 高 速 性 
(velocity)。 除 此 之 外 ， 还 有 提出 4V 定义 的 ， 即 和 演 试 在 3V 的 基础 上 增加 一 个 新 
的 特性 。 关 于 第 4 个 V 的 说 法 并 不 统一 ， 国 际 数据 公司 (International Data 
Corporation，IDC) 认为 大 数据 还 应 当 上 共有 价值 性 (value)。 大 数据 的 价值 往往 呈 
现 出 稀 牙 性 的 特点 。 而 IBM 认为 大 数据 必然 具有 真实 性 (veracity)。 维 基 百 科 对 
大 数据 的 定义 则 简单 明了 : 大 数据 是 指 利 用 第 用 软件 工具 捕获 、 管 理 和 处 理 数 据 
所 耗 时 间 超 过 可 容忍 时 间 的 数据 集 。 研 究 机 构 Gartner 给 出 了 这 样 的 定义 : 大 数据 
是 需要 新 处 理 模式 才能 具有 更 强 的 决策 力 、 调 察 发 现 力 和 流程 优化 能 力 来 适应 海 
量 、 高 增长 京 和 多 样 化 的 信息 资产 。 

目前 工业 界 普 授 认为 大 数据 共有 以 下 特征 : 

(1) 规模 性 (volume) 

规模 性 也 称 数 据 体 量 巨 大 。 目 前 ， 大 数据 的 规模 尚 是 一 个 不 断 变 化 的 指标 ， 
单一 数据 集 的 规模 范围 从 几 十 太 字 节 (TeraByte, Trillion byte, TB, 1TB=1024GB， 
即 万 亿 字 节 ) 到 数 拍 字 节 ， 即 千 万 亿 字 节 (Petabyte，PT，1PT=1024TB ) 不 等 。 
各 方 研究 者 虽然 对 大 数据 量 的 统计 和 预测 结 采 并 不 完全 相同 ， 但 一 致 认为 数据 量 
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将 急剧 增长 。 

(2) 多 样 性 (variety) 

多 样 性 即 数 据 类 型 多 样 。 从 生成 类 型 上 可 分 为 交易 数据 、 交 互 数据 、 传 感 
数据 ; 从 数据 来 源 上 可 分 为 社交 媒体 数据 、 传 感 器 数据 、 系 统 数据 ; 从 数据 格 
式 上 可 分 为 文本 、 图 片 、 首 频 、 视 频 、 光 谱 等 ， 从 数据 关系 上 可 分 为 结构 化 、 
半 结 构 化 、 非 结构 化 数据 ; 从 数据 所 有 者 可 分 为 公司 数据 、 政 府 数 据 、 社 会 数 
据 等 。 

(3) 高 速 性 〈velocity ) 

数据 的 增长 速度 快 ， 以 及 要 求 数 据 访 问 、 处 理 、 交 付 等 速度 快 。 数 据 创 建 、 
处 理 和 分 析 的 速度 持续 加 快 ， 其 原因 是 数据 创建 的 实时 性 属性 ， 以 及 需要 将 流 数 
据 结 合 到 业务 流程 和 决策 过 程 中 的 要 求 。 速 度 影 响 数据 时 延 一 一 从 数据 创建 或 获 
取 到 数据 可 以 访问 的 时 间 差 。 目前， 数据 以 传统 系统 不 可 能 达到 的 速度 产生 、 获 
取 、 存 储 和 分 析 。 在 对 时 间 敏 感 的 流程 中 ， 对 某 些 类 型 的 数据 必须 实时 地 分 析 ， 
以 对 业务 产生 价值 。 

(4) 价值 性 (value) 

大 数据 价值 巨大 。 大 数据 能 够 通过 规模 效应 将 低 价值 密度 的 数据 整合 为 高 价 
值 、 作 用 巨大 的 信息 资产 。 如 美国 社交 网 站 Facebook 有 十 几 亿 用 户 ， 网 站 对 这 些 
用 户 信息 进行 分 析 后 ， 广 告 商 可 根据 结果 精准 投放 广告 。 对 广告 商 而 言 ， 这 些 用 
户 的 数据 价值 上 于 亿美 元 。 

(5) 易 变 性 (variability) 

大 数据 具有 多 层 结构 。 弗 雷 斯 特 研究 公司 (Forrester Research) 分 析 师 布 赖 
恩 。 霍 普 金 (Brian Hopkins) 和 饮 里 斯 。 埃 韦 尔 松 (Boris Evelson) 指出 ， 大 数据 
具有 多 层 结构 ， 这 意味 看 大 数据 会 呈现 出 多 变 的 形式 和 类 型 。 相 对 比 传统 的 业务 
数据 ， 大 数据 存在 不 规则 和 模糊 不 清 的 特性 ， 造 成 很 难 甚 至 无 法 使 用 传统 的 应 用 
软件 进行 分 析 。 

(6) 准确 性 (veracity) 

准确 性 也 称 真实 性 ， 包 括 可 信 性 、 真 伪 性 、 来 源 / 信 誉 的 有 效 性 和 可 审计 性 等 
于 特征。 一 方面 ， 对 于 网 络 环境 下 如 此 大 量 的 数据 需要 采取 措施 确保 其 真实 性 、 
客观 性 ， 这 是 大 数据 技术 与 业务 发 展 的 迫切 需求 ， 另 一 方面 ， 通 过 大 数据 分 析 ， 
真实 地 还 原 和 预测 事物 的 本 来 面目 也 是 大 数据 未 来 友 展 的 趋势 。IBM 商业 价值 研 
完 院 在 发 布 的 《分 析 : 大 数据 在 现实 世界 中 的 应 用 》 报 告 中 指出 ， 追 求 高 数据 质 
量 是 一 项 重要 的 大 数据 要 求 和 挑战 。 但 是 ， 即 使 最 优秀 的 数据 清理 方法 也 无 法 消 
除 某 些 数 据 固有 的 不 可 预测 性 ， 例 如 天 气 、 经 济 或 者 客户 最 终 的 购买 决定 。 不 人 确 
定性 的 确认 和 规划 的 需求 是 大 数据 的 一 个 维度 ， 这 是 随 看 高 层 管理 者 需要 更 好 地 
了 解围 绕 在 他 们 里 边 的 不 确定 性 而 引入 的 维度 。 
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1.3.3 ”大 数据 的 价值 与 挑战 


大 数据 是 待 挖掘 的 金 矿 ， 大 数据 应 用 已 经 突显 出 了 巨大 的 价值 ， 触 角 已 延伸 
到 和 零售、 金融、 教育、 医疗、 人 体育、 制造、 影视 、 政 府 等 各 行 各 业 。 可 以 说 ， 谁 
能 掌握 和 合理 利用 大 数据 核心 资源 ， 谁 束 能 在 接 下 来 的 技术 变革 中 占据 绝对 的 优 
势 。 

大 数据 能 够 帮助 企业 分 析 大 量 数 据 而 进一步 挖 气 市场 机 会 和 细 分 市 场 ， 企 业 
利用 用 户 在 互联 网 上 的 访问 行为 分 析 其 仿 好 ， 能 为 每 个 用 户 义 勒 出 一 副 “ 用 户 画 
像 ”， 为 具有 相似 特征 的 用 户 组 提供 精确 服务 满足 用 户 需 求 ， 甚至 为 每 个 客户 量 身 
定制 。 这 一 变 章 将 大 大 绚 减 企业 产品 与 最 终 用 户 的 沟通 成 本 。 大 数据 能 够 帮助 企 
业 分 析 大 量 数据 而 进一步 挖掘 细 分 市 场 的 机 会 , 最 终 能 够 缩短 企业 产品 研 用 时 间 ， 
提升 企业 在 商业 模式 、 产 品 和 服务 上 的 创新 力 ， 大 幅 提 升 企业 的 商业 决策 水 平 。 
因此 ， 大 数据 有 利于 企业 发 据 和 开拓 新 的 市 场 机 会 ， 有 利于 企业 将 各 种 资源 合理 
利用 到 目标 市 场 ， 有 利于 制定 精准 的 经 销 策略 ， 有 利于 调整 市 场 的 营 铀 集 略 ， 大 
大 降低 企业 经 营 的 风险 。 

大 数据 从 诞生 开始 束 是 站 在 决 东 的 角 拔 出 及 的 ， 它 能 够 有 效 地 帮助 各 个 行业 
的 用 户 做 出 更 为 准确 的 雇 策 ， 从 而 实现 更 大 的 价值 。 虽 然 不 同行 业 的 业务 不 同 ， 
所 产生 的 数据 及 其 所 文 撑 的 管理 形态 也 千 妆 万 别 ， 但 从 数据 的 获取 、 数 据 的 整合 、 
数据 的 加 工 、 数 据 的 综合 应 用 、 数 据 的 服务 和 推广 以 及 数据 处 理 的 生命 线 流 程 来 
分 析 ， 所 有 行业 的 模式 是 一 致 的 。 这 种 基于 大 数据 决策 的 特点 是 : 

G 量变 到 质变 。 由 于 数据 被 广泛 挖掘 ， 决 策 所 依据 的 信息 完整 性 越 来 越 高 ， 
有 信息 的 理性 决 案 比例 在 迅速 扩大 ,“ 拍 脑袋 ”盲目 决策 的 比例 在 总 剧 缩小 。 

色 决策 技术 售 量 、 知 识 含量 大 幅度 近 高 。 由 于 云 计 算 的 出 现 ， 人 类 没有 被 海 
量 数据 所 淹没 ， 而 是 能 够 高 效 处 理 、 和 生产 有 价值 的 决策 信息。 

(3) 大 数据 决策 催生 了 很 多 过 去 难以 想象 的 重大 解决 方案 。 

正确 利用 大 数据 给 入 们 的 生活 市 来 了 极 大 的 便利 ， 但 与 此 同时 ， 大 数据 与 传 
统 数 据 在 规模 、 格 式 上 迎 然 不 同 的 特点 也 给 传统 数据 的 管理 方式 带 来 了 极 大 的 挑 
战 。 具 体 来 说 ， 大 数据 时 代 下 的 挑战 可 总 结 为 以 下 三 方面 。 

1. 大 数据 集成 

数据 的 广泛 存在 性 使 得 数据 越 来 越 多 地 散布 于 不 同 的 数据 管理 系统 中 。 为 了 
便于 进行 数据 分 析 ， 需 要 进行 数据 的 集成 。 数 据 集成 看 起 来 并 不 是 一 个 新 的 问题 ， 
但 是 大 数据 时 代 的 数据 集成 却 有 了 新 的 需求 ， 因 此 也 面临 看 新 的 挑战 。 

(1) 广泛 的 腊 构 性 

传统 的 数据 集成 中 也 会 面 对 数 据 腊 构 的 问题 ， 但 是 在 大 数据 时 代 ， 这 种 寞 构 
性 出 现 了 新 的 变化 。 主 要 体现 在 : 
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新 能 源 汽车 
大 数据 分 析 与 应 用 拉 术 
(WD 数据 类 型 从 以 结构 化 数据 为 主 转 癌 结构 化 、 半 结构 化 和 非 结 构 化 三 者 的 融 


人 
口 











@ 数据 产生 方式 的 多 样 性 带 来 的 数据 源 变 化 ,传统 的 电子 数据 主要 产生 于 服 
务 器 或 者 是 个 人 电脑 ， 这 些 设 备 位 置 相 对 固定 。 随 着 移 动 终端 的 快速 友 展 ， 手 机 、 
平板 电脑 、GPS 等 产生 的 数据 量 呈 现 爆炸 式 增 长 ， 且 产生 的 数据 高 有 很 明显 的 时 
空 特性 。 

(3) 数据 存储 方式 的 变化 。 传统 数据 主要 存储 在 关系 数据 库 中 , 但 越 来 越 多 的 
数据 开始 采用 新 的 数据 存储 方式 来 应 对 数据 爆炸 ， 比 如 存储 在 Hadoop 的 分 布 式 
文件 系统 中 。 这 就 必然 要 求 在 集成 的 过 程 中 进行 数据 转换 ， 而 这 种 转换 的 过 程 是 
非常 复杂 和 难以 管理 的 。 

(2) 数据 质量 

数据 量 大 不 一 定 就 代表 信息 量 或 者 数据 价值 的 增 大 ， 相 上 反 很 多 时 候 意 味 着 信 
恩 垃 圾 的 泛滥 。 一 方面 ， 很 难 有 单个 系统 能 够 容纳 下 从 不 同 数 据 源 集成 的 海量 数 
据 ; 故 一 方面 ， 如 果 在 集成 的 过 程 中 仪 仅 简 旱地 将 所 有 数据 聚集 在 一 起 而 不 作 任 
何 数据 清洗 ， 融 会 使 得 过 多 的 无 用 数据 干扰 后 续 的 数据 分 析 过 程 。 大 数据 时 代 的 
数据 清洗 过 程 必须 更 加 谨慎 ， 因 为 相对 细微 的 有 用 信息 混杂 在 庞大 的 数据 量 中 。 
如 条 信 息 清 洗 的 粒度 过 细 ， 则 很 容易 将 有 用 的 信息 过 滤 反 ;如 采 清 洗 粒 度 过 狂 ， 
则 又 无 法 达到 真正 的 清洗 效果 。 因 此 , 在 质 与 量 之 间 需 要 进行 仔细 的 考量 和 权衡 。 

2. 大 数据 分 析 

传统 意义 上 的 数据 分 析 主 要 针对 结构 化 数据 展开 ， 且 已经 形成 了 一 整套 行 之 
有 效 的 分 析 体 系 。 首 先 利 用 数据 库 来 存储 结构 化 数据 , 在 此 基础 上 构建 数据 仓库 ， 
根据 需要 构建 数据 立方 体 进行 联机 分 析 处 理 〈On-Line Analytical Processing， 
OLAP)， 可 以 进行 多 个 维度 的 下 钻 (drill-down) 或 上 卷 (roll-up) 操作 。 从 数据 
中 提炼 更 深层 次 的 知识 的 需求 促使 数据 挖掘 技术 的 产生 ， 并 友 明 了 聚 类 、 关 联 分 
析 等 一 系列 在 实践 中 行 之 有 效 的 方法 。 这 一 整套 处 理 流程 在 处 理 相对 较 少 的 结构 
化 数据 时 极为 蜗 效 。 但 是 随 看 大 数据 时 代 的 到 来 ， 半 结构 化 和 非 结构 化 数据 量 的 
迅猛 增长 ， 给 传统 的 分 析 搁 术 币 来 了 已 大 的 冲击 和 挑战 ， 主 要 体现 在 : 

(1) 数据 处 理 的 实时 性 (timeliness) 

随 着 时 间 的 流逝 ， 数 据 中 所 强 含 的 知识 价值 往往 也 在 衰减 ， 因 此 很 多 领域 
要 求 对 数据 进行 实时 人 处理 。 随 着 大 数据 时 代 的 到 来 ， 更 多 应 用 场合 的 数据 分 析 
从 离线 (offline) 转向 了 在 线 (online)， 开 始 出 现实 时 处 理 的 需求 。 大 数据 时 代 
数据 的 实时 处 理 面 临 大 一些 新 的 挑战 ， 主 要 体现 在 数据 处 理 模式 的 选择 及 改进 。 
在 实时 处 理 的 模式 选择 中 主要 有 三 种 思路 : 流 处 理 模 式 、 批 处 理 模式 以 及 二 者 
的 融合 。 虽 然 已 有 的 研究 成 果 很 多 ， 但 是 仍 未 有 一 个 通用 的 大 数据 实时 处 理 框 
染 。 各 种 工具 实现 实时 处 理 的 方法 不 一 ， 文 持 的 应 用 类 型 都 相对 有 限 ， 这 导致 
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实际 应 用 中 往往 需要 根据 目 己 的 业务 需求 和 应 用 场景 对 现 有 的 这 些 技术 和 工具 
J 

(2) 动态 变化 环境 中 索引 的 设计 

关系 数据 库 中 的 索引 能 够 加 速 得 询 速 蓉 ， 但 是 传统 的 数据 管理 中 模式 基本 不 
会 发 生变 化 ， 因 此 在 其 上 构建 驼 引 主要 考虑 的 是 索引 创建 、 更 新 等 的 效率 。 大 数 
据 时 代 的 数据 模式 随 着 数据 量 的 不 断 变化 可 能 会 处 于 不 断 的 变化 之 中 ， 这 就 要 求 
索引 结构 的 设计 简单 、 高 效 ， 能 够 在 数据 模式 发 生变 化 时 很 快 地 进行 调整 来 适 
应 。 在 数据 模式 变更 的 假设 前 提 下 ， 设 计 新 的 索引 方案 将 是 大 数据 时 代 的 主要 
挑战 之 一 。 

(3) 先 验 知识 的 缺乏 

传统 分 析 主 要 针对 结构 化 数据 展开 ， 这 些 数据 在 以 关系 模型 进行 存储 的 同时 
就 隐 售 了 这 些 数 据 内 部 关系 等 先 验 知识 。 比 如 我 们 知道 所 要 分 析 的 对 象 会 有 哪些 
属性 ， 通 过 属性 我 们 又 能 大 致 了 解 其 可 能 的 取 值 范 围 等 。 这 些 知识 使 得 我 们 在 进 
行 数据 分 析 之 前 束 已 经 对 数据 有 了 一 定 的 理解 。 而 在 面 对 大 数据 分 析 时 ， 一 方面 
是 半 结 构 化 和 非 结构 化 数据 的 存在 ， 这 些 数据 很 难以 类 似 结 构 化 数据 的 方式 构建 
出 其 内 部 的 正式 关系 ; 男 一 方面 很 多 数据 以 法 的 形式 源源 不 断 地 到 来 。 对 于 这 些 
需要 实时 处 理 的 数据 ， 很 难 有 足够 的 时 间 去 建立 先 验 知识 。 

3. 大 数据 隐私 问题 

隐私 问题 由 来 已 入， 计算 机 的 出 现 使 得 越 来 越 多 的 数据 以 数字 化 的 形式 存储 
在 电脑 中 ， 互 联网 的 发 展 则 使 数据 更 加 容易 产生 和 传播 ， 因 此 数据 隐私 泄露 问题 

(1) 隐 性 的 数据 骏 露 

很 多 时 候 人 们 有 意识 地 将 自己 的 行为 隐藏 起 来 ， 试 网 达到 隐私 保护 的 目的 。 
但 是 互联 网 尤其 是 社交 网 络 的 出 现 ， 使 得 人 们 在 不 同 的 地 点 产生 越 来 越 多 的 数据 
足迹 。 这 种 数据 足迹 具有 昧 积 性 和 关联 性 ， 单 个 地 点 的 信息 可 能 不 会 骏 露 用 户 的 
隐私 ， 但 是 如 果 有 办 法 将 某 个 人 的 很 多 行为 从 不 同 的 独立 的 点 聚集 在 一 起 上 时， 他 
的 隐私 束 很 可 能 会 暴露 。 这 种 隐 性 的 数据 骏 露 往往 是 个 人 无 法 预知 和 控制 的 。 从 
技术 层面 来 说 ， 可 以 通过 数据 抽取 和 集成 来 实现 用 户 隐私 的 获取 。 而 在 现实 中 ， 
通过 所 谓 的 “人 肉 搜索 ”方式 往往 能 更 快速 、 准 确 地 得 到 结果 。 这 种 “人 人 肉 搜索 ” 
方式 的 实质 就 是 “ 众 包 ”(crowdsourcing )。 大 数据 时 代 的 隐私 保护 面临 着 技术 和 
人 力 层 面 的 双重 考验 。 

(2) 数据 公开 与 隐私 保护 的 矛盾 

如 条 仅仅 为 了 保护 隐私 束 将 所 有 的 数据 都 加 以 隐藏 ， 那 么 数据 的 价值 将 无 法 
体现 。 数 据 公 开 是 非常 有 必要 的 ， 政 府 可 以 从 公开 的 数据 中 来 了 解 整 个 国民 经 济 
社会 的 运行 ， 以 便 更 好 地 指导 社会 的 运转 ;企业 则 可 以 从 公开 的 数据 中 了 解 客户 
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新 能 源 汽 车 
大 效 据 分 析 与 应 用 扩 林 


的 行为 ， 从 而 推出 针对 性 的 产品 和 服务 ， 使 其 利益 最 大 化 ; 研究 者 则 可 以 利用 公 
开 的 数据 ， 从 社会 、 经 济 、 撤 术 等 不 同 的 角度 来 进行 研究 。 因 此 大 数据 时 代 的 隐 
私 性 主要 体现 在 不 骏 露 用 户 敏感 信息 的 前 所 下 进行 有 效 的 数据 挖掘 ， 这 有 列 于 在 
传统 信息 安全 领域 更 加 关注 文件 的 私密 性 等 安全 属性 。 统 计数 据 库 数据 研究 中 最 
早 开展 的 就 是 数据 隐私 性 技术 方面 的 研究 , 近年 来 逐渐 成 为 相关 领域 的 研究 热 反 。 

(3) 数据 动态 性 

大 数据 时 代数 据 的 快速 变化 除了 要 求 有 新 的 数据 处 理 技 术 应 对 之 外 ， 也 给 隐 
私 保护 币 来 了 新 的 挑战 。 现 有 隐私 你 扩 拉 术 主 要 基于 静态 数据 集 ， 而 在 现实 中 数 
据 模 式 和 数据 内 容 时 刻 都 在 发 生 着 变化 。 因 此 在 这 种 更 加 复杂 的 环境 下 实现 对 动 
态 数 据 的 利用 和 隐私 保护 将 更 具 挑 战 。 

大 数据 以 及 相关 的 分 析 处 理 技术 是 一 把 双 刃 剑 ， 合 理 使 用 可 以 服务 企业 、 政 
府 和 社会 ， 为 人 们 的 生活 这 来 便利 ， 捉 高 社会 运行 效率 ;然而 使 用 不 当 则 会 变 成 
巨大 的 灾难 。 因 此 ， 为 了 更 好 地 利用 大 数据 服务 社会 ， 造 福 民 众 ， 要 次 建 面 癌 全 
社会 开放 合作 、 互 动 创新 的 大 数据 技术 体系 和 产业 生态 ,充分 挖掘 大 数据 的 潜力 ， 
同时 加 快 完 善 大 数据 安全 保障 机 制 和 能 力 ， 让 大 数据 有 发展 有 重 可 循 ， 有 法 可 依 。 

















车 辆 大 数据 与 应 用 





汽车 不 仅仅 是 运 得 工具 ， 还 是 大 数据 的 发 生 堪 和 承载 项 。 大 数据 在 提升 汽车 
产业 的 生产 制造 水 平 、 改 变 汽 车 经 营业 务 模 式 、 改 善 消 费 者 体验 、 推 动 镶 慧 社会 
发 展 、 建 设 汽 车 强国 过 程 中 将 发 挥 巨 大 且 重 要 的 作用 。 现 阶段 大 数据 正在 多 个 业 
务 坏 市 推动 淹 汽 车 产业 进一步 升级 : 

在 汽车 产品 研发 环节 ， 大 数据 助力 所 升 产 品 研 友 品质 。 

Go 在 营销 环节 ， 大 数据 助力 汽车 精准 营销 。 

(3) 在 使 用 环节 ， 倍 助 大 数据 能 够 准确 掌握 车 辆 位 置 、 车 辆 故障 、 罗 驶 行为 等 
音 轧 ， 结 合 其 体 使 用 场景 和 互联 网 技术 ， 文 撑 智 能 导航 、 芋 辆 故障 预警 等 领域 折 
展 创 新 ， 推 动 建立 便捷 用 车 、 经 济 用 车 、 安 全 用 车 的 社会 用 车 新 局 面 。 

(4) 在 后 市 场 环节 ， 以 车 辆 识别 代 吕 为 核心 ， 以 零 部 件 编码 、 材 料 编码 为 主要 
纽带 的 大 数据 体系 ， 使 得 整 车 与 零 部 件 信 息 的 精确 匹配 成 为 可 能 ， 为 汽车 后 市 场 
的 楷 亦 及 展现 定 基 础 。 

在 汽车 大 数据 产业 时 代 ， 以 数据 驱动 的 互联 、 互 动 为 核心 的 智能 制造 体系 即 
工业 4.0， 将 履 羡 汽车 生产 制造 全 领域 。 广 商 将 从 集中 式 生产 转变 为 分 散 式 生产 ， 
从 只 有 产品 转变 为 “产品 + 数据 ”从 生产 驱动 价值 转变 为 数据 驱动 价值 ， 产 业 结 
构 将 发 生 重大 转移 。 
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1.4.1 汽车 行业 大 数据 应 用 


作为 制造 业 的 巨头 ， 汽 车 产业 从 造 车 端 到 用 车 端的 整个 价值 链条 的 各 环节 ， 
都 将 持续 产生 数据 并 利用 数据 不 断 自我 优化 ， 从 而 与 大 数据 紧密 地 联系 在 一 起 。 
汽车 大 数据 是 一 个 巨大 的 战略 宝库 。 汽 车 产业 中 的 数据 收集 、 分 析 和 利用 方式 正 
在 发 生 重大 转变 , 车 联网 技术 也 正在 诸多 方面 改变 着 人 们 的 车 辆 购置 和 使 用 习惯 。 
车 辆 大 数据 的 应 用 可 以 覆盖 到 整个 汽车 产业 链 , 涵盖 到 汽车 生产 制造 、 汽车 销售 、 
汽车 养护 等 各 个 产业 链条 。 和 车 辆 大 数据 技术 和 应 用 必 将 推动 汽车 产业 全 产业 链 的 
变革 ， 为 企业 带 来 新 的 利润 增长 点 和 竞争 优势 。 

Q@ 车 企 可 以 利用 数据 挖掘 技术 ， 通 过 整合 汽车 媒体 、 微 信 、 官 网 等 互联 网 渠 
道 数 据 ， 扩 大 线索 入 口 ， 提 高 非 店面 的 新 增 潜在 客户 线索 量 ， 并 挖掘 保有 客户 的 
增 购 、 换 购 、 荐 购 线索 ， 从 新 客户 和 保有 客户 两 个 维度 扩大 线索 池 。 利 用 大 数据 
原理 ， 定 义 线索 级 别 并 进行 购车 意向 分 析 ， 提 高 销售 线索 的 转化 率 。 利 用 汽车 大 
数据 对 用 户 进行 多 维度 的 画像 扫描 ， 对 客户 进行 细 分 ， 从 购买 需求 、 购 买 能 力 、 
购买 目的 、 行 为 偏好 等 方面 建立 客户 分 层 模型 。 在 数据 的 基础 上 ， 洞 察 客户 群体 ， 
找到 购车 潜在 客户 ， 定 位 高 净值 车 主 ， 唤 醒 沉睡 的 车 主 ， 打 造 一 个 营销 的 闭环 。 
通过 食 、 住 、 娱 等 方面 ， 来 分 析 购 车 潜在 客户 的 行为 喜好 ， 针 对 不 同 的 潜在 客户 
群 进 行 精准 的 营销 推广 投放 ， 提 高 汽车 销量 。 

@@ 对 于 汽车 厂商 来 说 ， 汽 车 生产 环节 完成 并 成 功 上 市 并 不 意味 着 任务 完成 ， 
真正 的 考验 才刚 刚 开始 ， 消 费 者 拿 到 产品 后 的 真实 用 户 评价 是 决定 一 款 汽车 产品 
成 败 的 最 关键 的 因素 。 互 联网 的 快速 发 展 为 所 有 人 提供 了 一 个 庞大 的 信息 互通 的 
平台 ， 汽 车 用 户 通过 互联 网 沟通 交流 并 相互 分 享 购车 经 历 、 用 车 经 验 ， 同 时 也 会 
真实 地 吐露 产品 的 优 缺 点 一 一 这 些 信息 构成 了 最 精准 的 汽车 用 户口 碑 数据 。 借 助 
汽车 大 数据 平台 将 全 网 汽车 用 户 评价 数据 融合 分 析 ， 实 时 洞察 用 户 对 于 产品 和 品 
牌 的 与 论 走向 ， 维 护 品牌 形象 ， 同 时 基于 用 户 反馈 意见 进行 产品 设计 改进 及 产品 
性 能 改进 ， 提 高 产品 可 靠 性 ， 降 低产 品 故障 率 ， 

@ 车 企 可 以 通过 数据 挖掘 技术 进行 服务 升级 。 大 数据 应 用 于 客户 管理 方面 可 
以 提升 客户 满意 度 ， 改 善 售后 服务 。 通 过 建立 基于 大 数据 的 客户 关系 管理 系统 ， 
了 解 客户 需求 ， 掌 握 客户 动态 ， 为 客户 提供 个 性 化 服务 ， 促 进 客户 回 厂 维修 及 保 
养 ， 提 高 配件 销量 ， 增 加 售后 产值 ， 提 高 保有 客户 的 利润 贡献 度 。 

在 汽车 的 衍生 业务 方面 ， 大 数据 挖掘 也 有 很 大 的 利用 空间 。 比 如 通过 对 驾驶 
总 行驶 里 程 、 日 行驶 时 间 以 及 急 制 动 次 数 、 急 加 速 次 数 等 驾驶 行为 数据 在 云端 
分析， 有 效 地 帮助 保险 公司 全 面 了 解 驾驶 员 的 驾驶 习惯 和 驾驶 行为 ， 有 利于 保 
险 公司 发 展 优质 客户 ， 提 供 不 同 类 型 的 保险 产品 ， 此 外 ， 基 于 车 联网 数据 的 驾驶 
行为 分 析 ， 可 以 对 驾驶 员 的 驾驶 操作 安全 性 和 能 耗 水 平 进行 评价 ， 提 供 驾 驶 操作 




























































































一 河 


> 


19 


新 能 源 汽 车 
大 效 据 分 析 与 应 用 扩 术 


建议 ， 帮 助 禹 驶 员 优 化 驾驶 行为 ， 拓 局 车 辆 行驶 安全 性 和 经 济 性 。 

在 无 人 驾驶 汽车 领域 ， 大 数据 扩 术 为 无 人 要 驶 技术 的 实现 提供 了 基础 技术 文 
持 。 百 度 无 人 驾驶 汽车 可 目 动 识别 交通 指示 脾 和 行车 信息 ， 上 其 备 雷 达 、 相 机 、 全 
球 卫 星 导 航 等 电子 设施 ,并 安装 同步 传 感 占 。 和 车 主 只 要 在 导航 系统 中 输入 目的 地 ， 
汽车 即 可 目 动 行驶 ， 前 往 目 的 地 。 在 行驶 过 程 中 ， 汽 车 会 通过 传 感 设备 上 传 路 况 
半 居 ， 在 大 量 数 据 基 础 上 进行 实时 定位 分 析 ， 从 而 判断 行驶 方 辐 和 速度 。 无 人 加 
驶 汽车 行驶 的 越 多 ,得 到 的 数据 越 多 , 汽车 将 会 判断 得 越 准 确 ， 行 为 也 会 越 留 能 。 


1.4.2 ”新 能 源 汽车 大 数据 应 用 


随 着 我 国 对 新 能 源 汽车 推广 力度 的 不 断 加 大 ， 具 备 绿色 环保 特性 的 新 能 源 汽 
车 是 未 来 汽车 产业 发 展 的 必然 趋势 ， 它 将 逐步 取代 传统 燃油 汽车 成 为 寻常 百姓 的 
日 常 出 行 交 通 工 具 。 相 比 于 传统 汽车 ， 电 动 汽 车 的 电气 化 程度 更 高 ， 机 械 结构 相 
对 简单 ， 可 以 采集 的 数据 项 更 丰富 ， 可 以 文 持 多 方面 、 深 层次 的 数据 分 析 需 求 。 
新 能 源 汽车 大 数据 平台 近年 来 发 展 迅速 ， 大 数据 挖掘 方法 在 新 能 源 汽 车 大 数据 管 
理 平台 的 数据 展示 、 运 行 数据 分 析 、 故 障 数 量 统 计 等 方面 具有 得 天 独 厚 的 数据 优 
势 。 利 用 新 能 源 汽车 大 数据 分 析 为 消费 者 提供 车 辆 运行 状态 分 析 以 及 安全 预警 等 
服务 能 够 促进 新 能 源 汽车 产业 的 发 展 ， 优 化 新 能 源 汽车 的 使 用 体验 。 

目前 由 于 动力 电池 技术 水 平 的 限制 ， 新 能 源 汽车 面临 着 充电 时 间 长 和 续 驶 里 
程 不 足 的 问题 。 此 外 新 能 源 汽车 一 系列 安全 事故 的 发 生 使 得 其 安全 问题 ， 尤 其 是 
动力 电池 的 安全 问题 得 到 了 研究 人 员 和 消费 者 的 高 度 重视 。 

1. 安全 预警 与 管理 

新 能 源 汽车 的 优点 在 于 无 尾气 排放 、 品 声 小 ， 满 足 环境 保护 要 求 。 然 而 ， 
相 比 于 传统 汽车 ， 由 于 用 电 设 备 设施 的 增加 ， 新 能 源 汽 车 同时 也 存在 动力 电池 
发 热量 大 、 线 路 多 、 电 器 控制 系统 复杂 等 缺点 。 一 旦 车 辆 设计 不 合理 ， 装 配 不 
合理 ， 和 车辆 使 用 、 操 作 不 当 或 日 常 车 辆 维护 不 当 或 发 生 碰 撞 等 意外 ， 电 池 或 各 
类 电器 控制 设备 就 极 容易 在 工作 运行 时 发 生火 灾 ， 给 敬 驶 员 和 乘客 带 来 安全 隐 
患 。 近 年 来 频繁 太 生 的 新 能 源 汽车 火灾 事故 也 给 车 辆 生产 企业 敲 响 了 警钟 。 因 
此 如 何 实 现 对 新 能 源 汽车 安全 隐患 的 有 效 监 控 并 提前 预警 是 吸 须 解决 的 问题 ， 
目前 大 多 数 安全 预警 和 管理 研究 都 是 基于 实验 数据 开展 的 。 随 着 大 数据 挖掘 技 
术 和 方法 的 发 展 ， 越 来 越 多 的 大 数据 方法 被 应 用 到 我 们 的 实际 生活 和 工程 应 用 
当中 。 从 新 能 源 汽车 的 电池 安全 角度 分 析 ， 可 以 利用 当前 大 数据 中 的 云 计 算 技 
术 和 电动 汽车 车 载 终端 设计 一 种 电池 安全 预警 系统 ， 实 现 对 电池 运行 、 充 放电 、 
检修 、 防 资 等 全 方面 监测 、 数 据 云 同 步 、 云 服务 端的 高 性 能 数据 分 析 、 事 故 预 
黎 和 全 领域 电池 追踪 ， 以 提高 人 身 和 电池 安全 ,减少 电池 事故 发 生 数 量 ， 加 快 
救援 速度 ， 延 长 电池 寿命 。 用 以 保障 新 能 源 汽车 的 电池 安全 ， 实 现 新 能 源 汽车 
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的 安全 预警 与 管理 。 

2. 车 辆 运行 管理 和 统计 

新 能 源 汽 车 的 运营 统计 分 析 系 统 主要 实现 车 辆 整体 性 能 统计 分 析 、 电 池 组 性 
能 统计 分 析 、 和 车 辆 运营 统计 分 析 、 统 计 报 表 分 析 及 图 表 打 印 等 功能 。 电 池 性 能 的 
统计 分 析 模 块 是 新 能 源 汽车 特有 的 ， 访 模块 给 出 了 电池 组 充电 的 统计 分 析 结 果 、 
电池 组 放电 的 统计 分 析 结 果 、 不 同 电池 组 行驶 里 程 统计 分 析 结 果 以 及 电池 组 性 能 
评价 统计 分 析 结 果 。 系 统 处 理 的 数据 主要 来 自 监控 子 系统 通过 和 车载 终 端 收 到 的 实 
时 数据 及 定期 传 回 的 历史 数据 ， 统 计 分 析 的 结 末 相应 地 以 直方 图 、 曲 线 图 、 报 表 
的 形式 给 出 。 通 过 以 上 分 析 结 采 ， 可 以 充分 了 解 新 能 源 汽车 的 整 车 性 能 以 及 运 
行情 况 ， 而 通过 上 述 运行 统计 分 析 可 以 实现 新 能 源 汽 车 设计 最 优化 。 而 要 实现 
这 样 的 运行 统计 功能 ， 融 需要 建立 起 相应 的 大 数据 平台 ， 对 相应 的 数据 进行 收 
入 与 分 川 ， 

3. 车 辆 技术 分 析 

(1) 电池 SOC 估计 

电 字 的 衍 电 状态 〈State of Charge，SOC) 是 电池 动力 性 能 ， 是 估计 汽车 续 驶 
里 程 的 重要 指标 ， 对 其 估算 的 准确 性 直接 影响 驾驶 员 对 电池 状态 的 掌握 和 行驶 计 
划 的 制定 ， 甚 至 关乎 其 对 电动 汽车 的 接受 程度 。 但 是 ， 电 池 SOC 不 能 直接 测量 ， 
只 能 通过 电池 端 电压 、 充 放电 电流 及 内 阻 等 参数 进行 估算 。 并 且 这 些 参数 还 会 受 
到 充 放电 倍率 、 电 池 老 化 、 环 境 温 度 变 化 及 汽车 行驶 状态 等 多 种 不 确定 因 系 的 影 
啊 。 因此, SOC 的 准确 估计 成 为 当下 新 能 源 汽 车 企业 和 相关 研究 机 构 研 究 的 重点 。 
目前 ， 动 力 电池 SOC 估计 方法 主要 有 放电 实验 法 、 安 时 积分 法 、 开 路 电压 法 、 线 
性 模型 法 和 卡尔 曼 滤 波 方 法 等 ， 这 些 方法 往往 基于 实验 采集 数据 ， 在 实时 性 、 适 
用 性 和 估算 精度 等 方面 尚 存 不 足 。 随 着 大 数据 时 代 的 到 来 ， 新 能 源 汽车 数据 采集 
和 大 数据 处 理 技术 得 到 了 迅猛 的 发 展 , 基于 数据 驱动 方法 的 SOC 估计 模型 的 优势 
逐渐 显现 ， 如 基于 大 数据 的 神经 网 络 方法 、 文 持 问 量 回归 法 以 及 模糊 逻辑 算法 等 ， 
都 能 够 快速 、 方 便 、 高 精度 地 估算 SOC。 

(2) 续 驶 里 程 预测 

续 驶 里 程 是 指 新 能 源 汽车 上 动力 电池 以 全 充满 状态 开始 到 标准 规定 的 试验 结 
束 时 所 走 过 的 里 程 ， 是 新 能 源 汽 车 的 经 济 性 指标 之 一 。 对 续 驶 里 程 的 精确 预测 是 
新 能 源 汽车 发 展 的 必然 趋势 。 根 据 从 出 发 地 到 目的 地 之 间 的 所 有 与 路 径 相 关 的 数 
据 ， 由 大 数据 技术 来 决定 哪些 信息 是 重要 的 并 且 提 取 关 键 特性 ， 可 以 输入 相关 预 
测 模 型 来 估计 续 驶 里 程 。 收 集 天 气 、 路 况 、 道 路 类 型 (高速 公路 或 市 区 道路 )、 道 
路 等 级 等 多 种 不 同 数据 ， 同 时 把 车 辆 行驶 的 历史 《 整 车 历史 能 耗 值 、 历 史 行 驶 工 
况 )、 实 时 数据 以 及 车 辆 和 电池 的 性 能 考虑 在 内 ， 并 通过 大 数据 技术 对 其 进行 整理 
分 析 ， 最 终 得 到 精度 较 高 的 估 鼻 值 。 
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(3) 动力 电池 系统 运行 管理 

电池 管理 系统 (Battery Management System，BMS) 通过 检测 电池 组 中 各 单 
体 电 池 的 状态 来 确定 整个 电池 系统 的 状态 ， 并 根据 它们 的 状态 对 动力 电池 系统 进 
行 对 应 的 控制 调整 和 策略 实施 ， 实 现 对 动力 电池 系统 及 各 单 体 的 充 放电 管理 以 保 
证 动力 电池 系统 安全 稳定 地 运行 。 作 为 新 能 源 汽车 的 核心 之 一 ， 电 池 管 理 系统 在 
很 多 功能 方面 仍 存在 不 足 。 在 新 能 源 汽 车 过 肠 有 发展 的 当下 ， 可 以 通过 海量 实时 数 
据 、 历 史 数 据 和 技术 的 积 昧 对 电池 管理 系统 的 功能 进行 不 断 完 善 ， 如 优化 便 件 设 
计 、 提 高 软件 的 目 适 应 性 和 提高 数据 挖掘 与 分 析 能 

4. 充电 站 ( 桩 ) 运营 管理 

充电 桩 运营 是 指 以 城市 为 单位 ， 建 立 充电 桩 (站 〉 的 基础 信息 、 运 营 等 数据 
应 用 服务 一 体 化 ， 以 充电 桩 运营 (监控 ) 中 心 为 文 撑 ， 从 充电 桩 监管 到 开展 运营 
业务 ， 为 设备 厂家 、 新 能 源 汽 车 用 户 、 新 能 源 汽车 销售 门店 和 政府 部 门 提供 大 数 
据 分 析 、 行 业 调 查 、 统 计 报 告 和 应 用 集成 等 多 元 化 服务 。 

整体 来 看 ， 充 电 桩 运营 涉及 对 分 散在 市 区 内 的 充电 设施 的 资产 (设备 ) 管 
理 、 计 量 计 费 、 文 付 结算 、 统 计 分 析 、 运 行 管 理 、 用 户 管理 、 客 户 服 务 、 集 中 
监控 、 维 护 保 养 、 碍 询 、 呼 叫 中 心 等 功能 ， 为 新 能 源 汽 车 充电 服务 网 络 的 运营 
管理 提供 有 力 的 文 撑 ， 保 证 新 能 源 汽 车 充电 运营 的 高 效 有 序 ， 实 现 运 营 镶 能 化 、 
规范 化 管理 。 

对 于 用 户 来 说 ， 通 过 乔 能 手机 实现 空间 充电 桩 查询 、 站 点 导航 、 预 约 充 电 、 
扫 人 码 充电 、 移 动 文 付 、 远 程控 制 、 用 户 反 馈 等 多 种 功能 ， 将 会 使 充电 变 得 高 效 、 
便捷 ; 而 对 于 营运 商 而 言 ， 实 现 充 电 数 据 实时 监控 、 即 时 推送 用 户 序 电 安 全 警示 、 
实时 人 退 踩 运 彰 和 车辆、 远程 控制 车 桩 安全 等 多 种 管理 功能 ,将 会 大 大 提高 服务 质量 。 
同时 ， 基 于 充电 站 运营 大 数据 ,分 析 用 户 的 充电 行为 ， 包 括 充电 时 间 、 充 电 方式 
(快慢 充 ) 以 及 充电 量 每 , 可 以 发 现 营 运 中 存在 的 问题 并 有 人 针对 性 地 制定 解决 措施 ， 
提高 充电 站 ( 桩 ) 的 服务 能 力 和 流量 9。 










































































日 ”参考 http: //www.zhev.com.cn/news/show—1488695818-2.html 
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在 经 历 几 次 经 济 危 机 之 后 ， 全 球 范 围 内 ， 各 领域 的 科技 创新 逐渐 成 为 各 国 制 
定 发 展 战略 的 侧重 点 ， 抢 占 科 技 制高点 的 竞赛 日 益 激 烈 ， 全 球 进 入 衬 前 的 创新 冤 
集 和 产业 振兴 时 代 。 作 为 新 兴 产 业 和 科技 创新 的 代表 ， 物 联网 将 是 下 一 个 推动 世 
界 高 速 发 展 的 “重要 生产 力 ” 是 继 互 联网 之 后 的 另 一 个 万 亿 级 市 场 。 物 联网 通过 
智能 感知 、 识 别 技 术 与 普 适 计算 等 通信 和 感知 技术 ， 广 泛 应 用 于 网 络 的 融合 中 ， 也 
因此 被 称 为 继 计 算 机 、 互 联网 之 后 世界 信息 产业 发 展 的 第 三 次 浪 渭 。 从 “ 智 芒 地 
球 ” 到 “感知 中 国 ”， 痢 体 现 出 决策 者 对 物 联网 的 遇 度 关注 。 作 为 与 人 们 日 第 需求 
相关 程度 最 高 的 交通 领域 ， 物 联网 的 作用 更 具体 地 体现 在 车 、 路 、 人 三 者 关系 的 
协调 上 ， 即 车 联网 (Connected Vehicles)。 车 联网 是 由 车 辆 位 置 、 速 度 和 路 线 等 信 
恩 构 成 的 巨大 交互 网 络 。 

车 联网 技术 可 以 实现 以 下 功能 

CO 通过 装载 在 车 辆 上 的 电子 标签 获取 车 辆 的 行驶 属性 和 系统 运行 状态 














加 通过 卫星 定位 技术 获取 车 辆 行驶 位 置 等 参数 ， 通 过 3G/4G 等 无 线 传输 技 
术 实 现 信息 传输 和 共享 。 

(3) 通过 各 类 传感器 获取 车 辆 内 、 和 车辆 间 、 和 车辆 与 道路 间 、 桥 荣 等 交通 基础 设 
施 的 使 用 状况 。 

网 通过 互联 网 信息 平台 ， 实 现 对 车 辆 运行 的 监控 ， 并 提供 各 种 交通 综合 
服务 。 

目前 随 着 新 能 源 汽车 在 我 国 的 普及 ， 新 能 源 汽车 的 车 联网 技术 也 在 不 断 地 发 
展 。 本 章 将 对 新 能 源 汽车 的 构 型 、 车 联网 的 总 线 通 信 技 术 进 行 相应 的 论述 ， 同 时 
对 目前 车 辆 所 使 用 的 车 联网 车 载 设备 以 及 车 联网 的 应 用 实例 进行 分 析 。 
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新 能 源 汽 车 与 数据 采集 





按照 新 能 源 汽车 的 驱动 原理 和 技术 现状 ， 一般 将 其 划分 为 纯 电 动 汽 车 
(Electric Vehicle，EV)、 泥 合 动力 电动 汽车 (Hybrid Electric Vehicle，HEV) 和 燃 
料 电 池 电 动 汽 车 (Fuel Cell Electric Vehicle，FCEV) 三 种 类 型 。 


2.1.1 纯 电 动 汽车 


纯 电 动 汽车 是 指 利 用 动力 电池 作为 储 能 动力 源 ， 通 过 动力 电池 同 驱 动 电机 提 
供 动 能 ， 驱 动 电机 运转 ， 从 而 驱动 电动 汽车 前 进 的 一 种 新 能 源 汽车 ， 其 基本 结构 
如 图 2-1 所 示 。 




















电池 电压 电机 状态 





累计 里 程 
2-1 纯 电 动 汽车 典型 的 基本 结构 


与 燃油 汽车 比 ， 纯 电动 汽车 具有 以 下 优点 : 

(D 零 排 放 ， 堆 污染， 噪声 小 。 

Oo 结构 简单 ， 使 用 维修 方便 。 

(3) 能 量 转换 效率 高 ， 同 时 可 回收 制 动 和 下 坡 的 能 量 ， 近 高 能 量 的 利用 效率 。 

4 可 在 夜间 利用 电网 的 廉价 “ 谷 电 ” 进 行 充 电 ， 起 到 平抑 电网 的 峰 谷 差 的 
作用 。 

纯 电 动 汽车 作为 机 械 、 电 子 、 能 源 、 计 算 机 、 信 息 技 术 等 多 种 高 新 技术 的 集 
成 ， 是 典型 的 高 新 技术 产品 ， 其 最 终 目 标 是 实现 镶 能 化 、 网 联 化 和 轻 量 化 。 目 前 ， 
研制 和 开发 的 关键 技术 主要 有 动力 电池 、 驱 动 电 机 、 电 机 控制 、 车 身 和 底盘 设计 
及 能 量 管理 拉 术 等 。 新 能 源 汽 车 的 数据 对 提高 这 些 关 键 扩 术 的 研 及 速度 、 降 低 研 
发 成 本 及 验证 技术 可 菲 性 等 方面 的 作用 是 十 分 显著 的 ， 因 此 获取 和 统计 新 能 源 汽 
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车 的 数据 便 尤 为 重要 。 和 车 辆 的 数据 采集 也 是 实现 车 联网 的 第 一 步 ， 包 括 信息 采集 
与 识别 、 数 据 传输 和 信息 处 理 。 下 面 我 们 以 纯 电 动 汽车 为 例 介绍 所 采集 的 类 型 多 
样 的 数据 信息 。 

如 图 2-2 所 示 ， 纯 电动 汽车 整 车 数据 采集 项 一 共有 11 项 ， 包 括 : 车 辆 状态 、 
充电 状态 、 运 行 模式 、 车 速 、 累 计 里 程 、 总 电压 、 总 电流 、SOC、DC/DC 变换 器 
状态 、 档 位 及 绝缘 电阻 。 














色 mm 
入 
累计 里 程 


电池 电压 
图 2-2 整 车 数据 采集 实物 图 








针对 纯 电动 汽车 的 驱动 特点 ， 数 据 玉 集 应 该 包含 驱动 电机 的 数据 ， 共 10 项 : 
驱动 电机 数量 、 总 成 信息 、 状 态 、 序 号 、 控 制 嚣 温度、 转速 、 温 度 、 转 和 朱 、 输 入 
电压 及 电机 控制 上 融和 二 流 母 线 电流 。 

对 于 新 能 源 汽车 ， 动 力 电池 的 使 用 寿命 及 安全 性 问题 是 整 车 成 本 控制 及 安全 
监控 的 关键 。 为 了 你 证 在 车 辆 行驶 过 程 中 ， 动 力 电 池 能 够 稳定 融 效 地 提供 动力 ， 
在 电池 即将 肥 生 内 部 故障 时 能 及 时 地 检测 并 实时 预警 ， 在 车 辆 的 全 乔 命 周期 内 分 
析 电 池 工 作 状态 ， 为 动力 电池 生产 企业 、 动 力 电池 管理 系统 提供 足够 丰富 的 数据 
反馈 …… 这 就 要 求 对 动力 电池 的 数据 进行 全 面 的 数据 采集 。 对 于 动力 电池 数据 采 
集 的 信息 项 目 主要 为 与 电池 相关 的 极 值 数据 ， 如 图 2-3 所 示 。 













输入 电流 (mm } | 电池 最 低温 度 
电池 状态 

电池 电流 电流 温度 

最 大 允许 放电 电流 锂电 池 入 水 口 温度 


图 2-3 ”电池 状态 信息 示意 图 
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电池 状态 信息 数据 包括 : 电池 电压 、 电 池 电 流 、 电 池 温 度 探 针 数 、 探 针 温度 
值 、 高 压 DC/DC 变换 器 状态 、 电 池 最 低 单 体 电 压 、 电 池 最 低 单 体 箱 号 、 当 前 最 大 
允许 放电 电流 、 锂 电池 系统 故障 等 级 等 。 

车 辆 的 道路 行驶 信息 对 于 安全 事故 追踪 、 交 
通路 网 优化 及 乔 草 城市 交通 设计 都 有 着 重要 的 
作用 , 因此 对 于 车 辆 位 置 数 据 信 息 采 集 的 需求 便 
应 运 而 生 。 和 车辆 的 位 置信 息 可 以 由 定位 蕊 片 采 
集 ， 精 度 应 达到 5m， 由 此 处 理 得 到 的 经 纬度 的 
精度 可 以 确定 为 $ 一 20m 的 数量 级 ， 同 时 可 以 根 
据 GPS 的 数据 计算 得 到 车 辆 行驶 方向 及 行驶 速 
度 , 对 车 辆 位 置 、 行 驶 轨迹 及 行驶 速度 进行 监控 ， 
如 图 2-4 所 示 。 

为 了 更 加 准确 地 对 车 辆 行驶 状态 进行 监控 ， 整 车 数据 应 被 详细 完备 地 记录 并 
传输 ， 如 图 2-5 所 示 。 这 些 整 车 数据 信息 将 为 车 辆 数据 分 析 提 供 准 确 可 靠 的 数据 
依据 ， 如 通过 纵 同 加 速度 的 记录 可 以 分 析 路 面 坡 度 、 电 机 驱动 特性 及 车 辆 质量 对 
于 车 辆 轴 癌 加 速度 的 影响 。 通 过 转 问 盘 转 角 的 记录 可 以 计算 出 方 同 角速度 ， 结 合 
速度 、 转 同 盘 转角 及 横 癌 加 速度 可 以 对 车 辆 的 转弯 状态 进行 判断 ， 同 时 也 可 以 反 
应 驾驶 员 在 转弯 过 程 中 的 驾驶 习惯 。 














图 2-4 ”车辆 位 置信 息 示 意图 








A 压 信 号 


图 2-5 整 车 数据 信息 
2.1.2 ”混合 动力 电动 汽车 


混合 动力 汽车 是 指 汽车 动力 传动 系统 由 两 个 或 多 个 能 同时 运转 的 单个 动力 传 
动 系统 联合 组 成 的 汽车 。 汽 车 的 行驶 功率 依据 实际 的 汽车 行驶 状态 由 单个 动力 传 
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动 系统 单独 或 多 个 动力 系统 共同 提供 。 如 末 其 中 一 个 动力 传动 系统 为 纯 电动 汽车 
动力 传动 系统 ， 则 该 混合 动力 汽车 为 混合 动力 电动 汽车 。 混 合 动 力 电动 汽车 按照 
驱动 系统 能 量 流 和 功率 流 的 配置 结构 关系 以 及 动力 传输 路 线 ， 可 以 分 为 串联 式 泥 
合 动力 汽车 、 并 联 式 混合 动力 汽车 和 混 联 式 混合 动力 汽车 。 

(1) 曲 联 式 混 合 动 力 电动 汽车 (图 2-6) 

由 内 燃 机 直接 带动 发 电机 发 电 ， 产 生 的 电能 通过 控制 单元 传 到 电池 ， 再 由 电 
池 传 输 给 电机 化 为 动能 ， 最 后 通过 变速 机 构 来 驱动 汽车 。 电 池 在 发 电机 产生 的 能 
量 和 电动 机 需要 的 能 量 之 间 进 行 调 节 ， 从 而 你 证 车 辆 正常 工作 。 

里 联 式 混合 动力 电动 汽车 具有 下 述 特 氮 : 

G 车 载 能 量 源 坏 市 的 混合 。 

G@ 单一 的 动力 装置 。 

(3) 车 载 能 量 源 由 两 个 以 上 的 能 量 联合 组 成 。 

昌 联 式 混 合 动力 电动 汽车 实现 了 和 芋 载 能 量 源 的 多 样 化 ， 可 充分 友 挥 各 种 能 
量 源 的 优势 ， 并 通过 适当 的 控制 实现 它们 的 最 佳 组 合 ， 满 足 汽车 行驶 的 各 种 特 
殊 要 求 。 






































图 2-6 串联 式 混合 动力 电动 汽车 结构 


(2) 并 联 式 混合 动力 电动 汽车 (图 2-7) 

采用 友 动 机 和 驱动 电机 两 套 独立 的 驱动 系统 驱动 车 轮 。 友 动机 和 驱动 电机 通 
种 通过 不 同 的 离合 磊 来 驱动 车 轮 ， 可 以 采用 发 动机 单独 张 动 、 张 动 电机 单独 张 动 
或 者 友 动 机 和 驱动 电机 混合 驱动 三 种 工作 模式 。 当 发 动机 提供 的 功率 大 于 车 辆 所 
需 的 驱动 功率 时 ， 了 驱动 电机 工作 于 发 电 状 态 ， 给 动力 电池 充电 。 与 串联 式 混合 动 
力 相 比 ， 它 需要 两 个 驱动 装置 ， 即 发 动机 和 驱动 电机 。 而 且 ， 在 相同 的 驱动 性 能 
要 求 下 ， 由 于 驱动 电机 系统 与 友 动 机 可 以 同时 提供 动力 ， 并 联 式 比 串联 式 所 十 的 
发 动机 和 驱动 电机 的 单机 功率 要 小 。 














Zt 
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图 2-7 并 联 式 混合 动力 电动 汽车 结构 


并 联 式 混合 动力 电动 汽车 共有 下 述 特 扣 : 

QW 机 械 动能 的 混合 。 

@ 具有 两 个 或 多 个 动力 猴 置 。 

(3) 每 一 个 动力 装置 都 有 目 己 单独 的 车 载 能 量 源 。 

(3) 混 联 式 混合 动力 电动 汽车 

内 燃 机 系统 和 电机 驱动 系统 各 有 一 僚机 械 变 速 机 构 。 两 套 机 构 或 通过 齿轮 系 ， 
或 采用 行星 轮 式 结构 结合 在 一 起 ， 可 以 综合 调节 内 燃 机 与 电机 之 间 的 转速 关系 ， 
更 加 灵活 地 根据 工 况 来 调节 内 燃 机 的 功率 输出 和 电机 的 运转 。 

如 图 2-8 所 示 ， 混 联 式 混合 动力 电动 汽车 动力 传动 系统 其 有 两 个 电机 系统 ， 
即 友 电机 和 电机 驱动 系统 ， 关 备 了 串联 混合 动力 车 载 能 量 源 的 混合 以 及 并 联 混 合 
动力 机 械 动能 的 混合 ， 驱 动 模式 灵活 ， 能 量 效率 更 遇 。 在 实际 应 用 中 主要 有 两 种 
方 采 ， 即 开关 式 和 功率 分 流 式 。 





























行星 齿轮 a 
机 构 驱动 电机 





图 2-8 混 联 式 混合 动力 电动 汽车 结构 
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开关 混 联 式 混合 动力 汽车 的 结构 如 图 2-9 所 示 ， 离 合 器 起 到 了 在 串联 结构 和 
并 联结 构 之 间 切 换 的 作用 : 知 离 合 喜 打开 ， 则 该 混合 动力 传动 系 为 简单 的 串联 式 
结构 ; 大 离合 器 接合 且 发 电机 不 工作 ， 则 该 混合 动力 传动 系 为 蚀 单 的 并 联 式 结构 ; 
右 离 合 占 接合 且 发 电机 工作 于 发 电 模 式 , 则 混合 动力 传动 系 为 复杂 的 混 联 式 结构 。 
功率 分 流 混 联 式 混 合 动力 汽车 的 结构 如 图 2-10 所 示 , 它 巧 妙 地 利用 了 行星 轮 系 功 
率 分 流 以 及 三 个 目 由 度 的 特点 ， 发 动机 、 及 电机 以 及 驱动 轴 分 别 与 行星 轮 系 的 三 
个 轴 相 连 。 在 正常 工作 时 ， 发 动机 的 输出 动力 目 动 分 流 为 两 部 分 : 一 部 分 直接 笨 
出 到 驱动 轴 ， 与 电机 了 驱动 系统 输出 的 动力 联合 组 成 并 联 式 结构 ， 力 一 部 分 输出 到 
用 电机， 发 电机 发 出 的 电能 与 动力 电池 组 组 成 串联 式 结构 。 


























图 2-10 ”功率 分 流 混 联 式 混合 动力 电动 汽车 








混合 动力 电动 汽车 与 纯 电动 汽车 相 比 ， 主 要 多 出 了 发 动机 和 一 套 变 速 机 构 ， 
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所 以 在 采集 车 辆 数据 时 需要 注意 发 动机 的 相关 参数 信息 ， 例 如 发 动机 状态 、 曲 轴 
转速 、 燃 油 消 耗 率 、 机 油 温 度 、 冷 却 液 温 度 、 机 油 压 力 及 进 气 压力 等 。 


2.1.3 ”燃料 电池 电动 汽车 


燃料 电池 电动 汽车 的 动力 系统 主要 由 燃料 电池 友 动 机 、 燃 料 存 储 沪 置 (主要 
用 于 储 氢 )、 驱 动 电机 、 动 力 电池 组 等 组 成 (图 2-11 和 图 2-12)， 采 用 燃料 电池 
发 电 作 为 主要 能 量 源 ， 通 过 电机 驱动 车 辆 前 进 。 燃 料 电池 是 利用 氧气 和 和 氧气 (或 
空气 ) 在 催化 和 寞 的 作用 下 直接 经 电化 学 反应 产生 电能 的 猴 置 ， 排 放 物 只 有 水 ， 有 其 
有 无 污染 等 优点 。 


















驱动 电机 





图 2-11 燃料 电池 电动 汽车 结构 


冷却 装置 


7 " 


燃料 电池 





驱动 电机 
图 2-12 燃料 电池 电动 汽车 实物 图 
燃料 电池 电动 汽车 具有 效率 高 、 节 能 环保 、 运 行 平稳 、 品 声 小 等 优点 。 燃 料 
电池 作为 电动 汽车 的 动力 来 源 ， 其 特点 主要 表现 在 : 
Q) 能 量 转化 率 高 。 燃 料 电 池 的 能 量 转 化 率 可 高 达 60% 一 80%, 是 内 燃 机 的 2 一 
3 售 。 
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书 不 污染 环境 。 燃料 电 池 的 燃料 是 所 和 氧 ， 生 成 物 是 清洁 的 水 ， 它 本 里 工作 
不 产生 CO 和 CO;， 也 没有 硫 和 微粒 排出 ， 没 有 高 过 反应 ， 也 不 产生 NO,。 如 果 
使 用 车载 的 甲醇 重 整 催化 大 供给 氧气 ， 仅 会 产生 微量 的 CO 和 较 少 的 CO,。 

但 现 阶段 ， 燃 料 电 池 的 许多 关键 技术 还 处 于 研发 试验 阶段 。 此 外 ， 燃 料 电 池 
的 理想 燃料 一 一 氢气 ， 在 制备 、 供 应 、 储 运 等 方面 距离 产业 化 还 有 一 些 技 术 与 经 
谤 问题 有 竺 解决 。 

作为 黎 料 电 季 必 不 可 缺少 的 反应 催化 剂 一 一 贵金属 旬 〈Pt) 被 大 量 应 用 。 鬼 
照 现 有 燃料 电池 对 钥 金 的 消耗 量 ， 地 球 上 所 有 储量 都 能 用 来 制造 车 用 燃料 电池 ， 
也 仅 能 满足 几 百 万 辆 车 的 需求 。 因 此 如 何 降低 吐 金 属 铂 的 用 量 也 古 燃 料 电池 电动 
汽车 推广 应 用 的 扩 术 和 资源 瓶颈 之 一 。 

相 比 于 纯 电 动 汽 车 ， 燃 料 电 池 电 动 汽车 的 电能 来 源 于 燃料 电池 发 生 的 化 学 有 反 
应 ， 因 此 多 出 了 燃料 电池 和 储 氢 答 并 需要 采集 与 之 相关 的 参数 信息 ， 如 燃料 电池 
电压 、 燃 料 电池 电流 、 人 燃料 消 耗 束 、 人 燃料 电池 温度 探 针 总 数 、 探 针 温 度 值 、 气 系 
统 中 最 噩 温 度 、 气 系统 中 最 局 温度 探 针 代号 、 氧 气 最 噩 浓 度 、 气 气 最 局 浓度 传 感 
途 代 写 、 所 气 最 局 压力 、 气 气 最 局 压力 传 感 占 代 写 、 局 压 DC/DC 变换 右 状 态 等 。 
















































































车 辆 数据 通信 拉 术 





随 着 电子 技术 的 迅速 发 展 和 在 汽车 上 的 广泛 应 用 ,汽车 电气 化 程度 越 来 越 高 。 
从 发 动机 控制 到 传动 系统 控制 ， 从 行驶 、 制 动 、 转 向 系统 控制 到 安全 保证 系统 及 
仪表 报警 系统 ， 从 电源 管理 到 为 提高 舒适 性 而 做 的 各 种 努力 ， 使 汽车 电子 系统 形 
成 了 一 个 复杂 的 大 系统 。 这 些 系统 除了 各 目的 电源 线 外 ， 还 需要 互相 通信 ， 不 难 
想象 ， 知 仍 沿 用 党 规 的 点 对 点 的 布线 方式 进行 布线 ， 那 么 整个 汽车 的 布线 将 会 如 
一 团 乱 蚊 ， 其 布线 网 络 如 图 2-13 所 示 。 若 采用 总 线 方式 布线 〈 如 CAN 总 线 )， 
则 其 布线 图 如 图 2-14 所 示 。 











电机 控制 和 十 防 抱 死 系统 









































图 2-13 第 规 方法 布线 网 络 图 
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低速 网 段 











2-14 CAN 总 线 布 线 网 络 图 


CAN (Controller Area Network)〉 即 控制 器 局 域 网 络 。 由 于 其 高 性 能 、 高 可 靠 
性 及 独特 的 设计 ，CAN 越 来 越 受 到 人 们 的 重视 。 

CAN 最 初 是 由 德国 的 博世 公司 为 汽车 监测 、 控 制 系统 而 设计 的 。 现 代 汽 车 越 
来 越 多 地 采用 电子 装置 控制 , 如 发 动机 的 定时 、 注 油 控制 , 加 速 、 制 动 控制 (ASC ) 
及 复杂 的 抗 锁定 制 动 系统 (ABS) 等 。 由 于 这 些 控制 需 检测 及 交换 大 量 数据 ， 采 
用 硬 接 信号 线 的 方式 不 但 烦琐 、 昂 贵 ， 而 且 难 以 解决 问题 ， 采 用 CAN 总 线 可 以 
使 上 述 问题 便 得 到 很 好 的 解决 。 

1993 年 , CAN 成 为 国际 标准 ISO11898 (高速 应 用 ) 和 ISO11519 (低速 应 用 )。 
CAN 的 规范 从 CAN 1.2 规范 〈 标 准 格式 ) 发 展 为 兼容 CAN 1.2 规范 的 CAN2.0 规 
范 CCAN2.0A 为 标准 格式 ，CAN2.0B 为 扩展 格式 )。 目 前 应 用 的 CAN 器 件 大 多 
符合 CAN2.0 规范 。 

在 CAN 2.0B 规范 的 基础 上 ， 对 CAN 的 29 位 识别 符 进 行 具体 的 定义 ， 建 立 
起 J1939 协议 的 编码 系统 ， 从 而 形成 SAEJ1939 协议 。 目 前 它 已 成 为 货车 和 客车 
的 通用 通信 协议 。CAN 规范 和 J1939 协议 的 区 别 在 于 仲裁 场 的 29 位 识别 符 。 

CAN 格式 帧 转换 为 1939 格式 帧 是 通过 协议 数据 单元 (Protocol Data Unit， 
PDU) 来 实施 的 。J1939 的 PDU 由 P、R、DP、PF、PS、SA 和 DATA 七 部 分 组 
成 ， 它 对 应 于 CAN 协议 扩展 帧 的 29 位 识别 符 加 上 数据 场 。 

SAEJ1939 协议 在 货车 和 客车 上 得 到 了 广泛 应 用 , 但 对 于 拥有 更 多 电子 设备 的 
轿车 却 没有 统一 的 应 用 层 协议 。 

2.2.1 CAN 总 线 的 数据 交换 原理 

CAN2.0A 和 CAN2.0B 应 用 两 种 格式 的 数据 帧 。 这 两 种 格式 的 数据 帧 都 由 7 
个 段 码 组 成 。 标 准 厂 的 ID 人 码 为 11 位 , 可 以 识别 2048 个 不 同 的 信息 。 扩展 版 的 ID 
码 为 29 位 ， 可 以 识别 5.12x10* 个 不 同 信 息 。CAN 总 线 标准 版 《CAN 2.0A) 数据 
帧 格式 见 表 2-1 和 表 2-2。 
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表 2-1 CAN 总 线 标准 版 (CAN 2.0A) 数据 帧 格式 


表 2-2 CAN 总 线 标准 版 CCAN 2.0B) 数据 帧 格式 
7 | ?| | 
| 央 信 息 DLC (数据 长 度 ) 


帧 ID2 ID.7——ID.0 
字 节 4 数据 1 数据 
字 节 5 数据 2 数据 
字 节 6 数据 3 数据 
数据 4 数据 
字 节 8 数据 5 数据 
字 节 9 数据 6 数据 
字 节 10 数据 7 数据 
字 11 数据 8 数据 





改 
二 


CAN 总 线 协 议 的 总 线 仲裁 是 按 位 进行 的 ,需要 比较 不 同 节 点 在 同一 位 数据 传 
输 时 间 内 总 线 请 求 优先 级 的 高 低 。 因 此 ， 最 高 数据 传输 速度 随 总 线 长 度 的 增加 而 
降低 。 

CAN 总 线 协 议 是 一 种 非 破 坏 性 的 通过 驶 争 来 进行 总 线 仲 裁 的 协议 。 当 多 个 节 
点 同时 要 求 占 用 总 线 进行 数据 传输 时 , 为 了 防止 一 个 节点 破坏 为 一 个 节点 的 数据 ， 
CAN 总 线 协 议 控制 器 在 仲裁 段 传输 过 程 中 ， 根 据 标识 码 的 大 小 对 总 线 进行 仲裁 ， 
标识 码 较 小 的 信息 具有 较 高 的 总 线 占用 优先 级 。 当 在 一 条 总 线 上 要 传送 两 种 不 同 
格式 的 信息 时 ， 如 果 这 两 种 不 同 格式 的 信息 具有 相同 的 基本 标识 码 (BID)， 那 么 
在 进行 总 线 范 争 时 ， 标 准 格式 帧 的 优先 级 将 始终 融 于 扩展 格式 帧 的 优先 级 。 

按 CAN 总 线 协议 传输 的 数据 ， 都 需要 一 个 网 络 内 唯一 的 标识 码 来 指定 信息 
内 容 〈 如 发 动机 转速 或 冷却 液 温 度 ) 和 信息 发 送 的 优先 级 。 若 某 一 个 节点 的 CPU 
要 将 信息 发 送 给 一 个 或 多 个 市 点， 则 首先 应 将 生发 信息 及 其 标识 码 发 送 给 指定 的 
CAN 总 线 控制 器 。 为 此 ，CPU 须 首 先 初 始 化 CAN 总 线 控制 器 的 数据 交换 功能 ， 
然后 用 CAN 总 线 控 制 器 构建 并 发 送信 息 。 一 旦 网 络 中 某 一 节点 的 CAN 总 线 控制 
器 获得 总 线 控制 权 ， 网 络 中 所 有 其 他 节点 束 都 成 为 接收 节点 。 所 有 正确 接收 到 该 
言 轧 的 节点 都 要 进行 信息 检验 ， 以 确定 所 收 信息 是 否 与 本 节点 有 关 ， 然 后 放 径 无 
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关 信 息 ， 对 有 关 信 息 进行 处 理 。 这 种 方法 使 系统 构建 非常 灵活 ， 对 每 个 独立 节点 
来 说 ， 都 不 需要 物理 目的 地 址 。 如 果 要 增加 的 新 节点 是 纯粹 的 接收 站 ， 则 不 需要 
对 现 有 节点 的 硬 软 件 做 任何 修改 ， 就 能 方便 地 向 现 有 CAN 总 线 网 增加 新 节点 。 
该 协议 也 允许 多 站 同时 接收 信息 (广播 式 ) 和 分 布 式 过 程 信息 共享 ， 即 采用 该 协 
议 可 以 传送 多 个 控制 器 共用 的 测量 信息 。 对 于 基于 CAN 总 线 的 汽车 计算 机 控制 
系统 ， 所 有 的 控制 单元 可 以 共享 同一 个 传感器 。 


2.2.2 ”CAN 总线 的 特征 和 分 层 结构 


CAN 总 线 是 一 种 串 行 数据 通信 协议 ， 其 通信 接口 集成 了 CAN 协议 的 物理 层 
和 数据 链 路 层 功 能 ， 可 完成 对 通信 数据 的 成 帆 处 理 ， 包 括 位 填充 、 数 据 块 编 但 、 
循环 见 余 检验 、 优 先 级 判别 等 工作 。 

CAN 总 线 特点 如 下 : 

GO 可 以 多 主 方式 工作 , 网 络 上 任意 一 个 节点 均 可 以 在 任意 时 刻 主动 地 同 网 络 
上 的 其 他 节点 发 送信 息 ， 而 不 分 主 从 ， 通 信 方 式 灵活 。 

@ 网 络 上 的 节点 (信息 ) 可 分 成 不 同 的 优先 级 ， 可 以 满足 不 同 的 实时 要 求 。 

(3) 采用 非 破 坏 性 位 仲裁 总 线 结构 机 制 ， 当 两 个 节点 同时 间 网 络 上 传送 信息 
时 ， 优 先 级 低 的 节点 主动 停止 数据 发 送 ， 而 优先 级 高 的 节点 可 不 受 影响 地 继续 传 
输 数 据 。 


























可 以 采用 点 对 点 、 一 点 对 多 点 (成 组 ) 及 全 局 广播 几 种 传送 方式 接收 数据 。 
直接 通信 距离 最 远 可 达 10km (速率 5kbit/s 以 下 )。 
通信 速率 最 高 可 达 1MB/s〈 此 时 距离 最 长 40m )。 
万 点 数 实 际 可 达 110 个 。 
采用 短 帧 结构 ， 每 一 帆 的 有 效 字 节 数 为 8 个 。 
每 帧 信息 都 有 CRC 校 验 及 其 他 检 错 措施 ， 数 据 出 错 率 极 低 。 

通信 介质 可 采用 双 丝 线 、 同 轴 电 绵 和 光 导 纤维 ， 一 般 采 用 廉价 的 双 绥 线 即 
可 ， 无 特殊 要 求 。 

QD 而 氮 在 错误 严重 的 情况 下 ， 基 有 目 动 天 闭 总 线 的 功能 ,切断 它 与 总 线 的 联 
系 ， 以 使 总 线 上 的 其 他 操作 不 受 影响 。 

CAN 总 线 的 分 层 结构 ， 按 照 IEEE 802.2 和 802.3 标准 ， 物 理 层 划分 为 物理 信 
令 子 层 (Physical Signaling Sublayer，PSS)、 物 理 媒体 附属 装置 (Physical Medium 
Attachment，PMA ) 和 媒体 相关 接口 (Medium Dependent Interface，MDI)。 数 据 
链 路 层 划分 为 逻辑 链 路 控制 (Logic Link Control, LLC) 和 媒体 访问 控制 (Medium 
Access Control，MAC )。 

CAN (2.0B) 定义 了 MAC 子 层 和 LLC 子 层 的 一 部 分 ， 并 描述 与 CAN 有 关 
的 外 层 。LLC 子 层 的 主要 功能 是 为 数据 传送 和 远程 数据 请 求 提 供 服 务 ， 确 认 由 
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LLC 子 层 接收 的 报 文 已 被 接收 ， 并 为 恢复 管理 和 通知 超载 提供 信息 。MAC 子 层 
是 CAN 协议 的 核心 , 它 描述 由 LLC 子 层 接收 到 的 报 文 和 对 LLC 子 层 友 送 的 认可 
报 文 ,具有 数据 封装 / 拆 装 、 帧 编码 、 媒 体 访 问 管 理 、 错 误 监 测 、 出 错 标定 等 功能 。 
MAC 子 层 由 一 个 被 称 为 故障 界定 的 管理 功能 实时 监控 , 它 具 有 识别 永久 故障 或 短 
暂 扰 动 的 自 检 机 制 。 

物理 层 的 功能 是 实现 有 关 电 气 特 性 信号 在 不 同 节点 间 的 传送 。 物 理 层 定义 了 
信号 怎样 进行 发 送 ， 涉 及 位 定时 、 位 编码 和 同步 的 描述 。 在 这 部 分 技术 规范 中 ， 
未 定义 物理 层 中 的 驱动 器 和 接收 器 特性 ， 以 便 设 计时 根据 具体 应 用 ， 对 发 送 媒 体 
和 信号 电 平 进行 优化 。 


2.2.3 CAN 总 线 在 汽车 控制 系统 中 的 应 用 


现代 汽车 的 计算 机 控制 系统 一 般 包括 友 动 机 控制 、 目 劫 变速 费 控 制 、 防 抱 死 
制 动 控制 、 安 全 气 宫 控制 等 儿 个 控制 单元 。 这 类 汽车 的 各 计算 机 控制 单元 间 往 往 
没有 通过 总 线 构成 网 络 ， 而 是 独立 进行 控制 ， 或 者 相关 控制 单元 通过 串口 进行 联 
系 。 随 着 汽车 电子 技术 的 不 断 发 展 ， 一 些 移 进 的 汽车 上 还 次 备 了 巡航 控制 、 驳 动 
防滑 控制 《ASR)、 蕙 架 控 制 、 转 癌 控 制 、 空 调控 制 、 防 盗 及 其 他 控制 等 电子 控制 
单元 (ECU)。 男 外 ,各 种 舒适 性 控制 竣 置 和 数字 化 仪表 也 不 断 增 多 ,而 且 各 ECU 
之 间 有 痢 密切 的 联系 ，CAN 总 线 已 开始 应 用 于 这 些 先 进 的 汽车 计算 机 控制 系统 ， 
取代 传 感 费 、 电 子 控制 蛙 元 和 执行 右 之 间 以 及 电 控 单元 之 间 的 专线 联系 方式 ， 构 
成 了 基于 CAN 忆 线 的 汽车 控制 系统 网 络 。 通 常 ， 该 网 络 包括 发 动机 控制 、 传 动 
系统 控制 、 车 吴 控 制 和 仪 右 仪表 四 个 功能 独立 、 可 目 行 运行 的 CAN 总 线 网 络 。 
为 了 便于 汽车 所 有 功能 的 管理 ， 需 要 通过 网 关 将 这 四 个 CAN 总 线 网 络 联系 起 来 。 
网 天 通过 对 CAN 总 线 间 竺 传 数据 信息 的 镶 能 化 处 理 ， 确 保 只 有 菏 类 特定 的 信息 
才能 够 在 网 络 间 传 输 。 例 如 ， 车 身 CAN 总 线 网 络 要 从 发 动机 CAN 总 线 网 络 索 要 
茶 一 信息 时 ， 网 关 计 算 机 束 从 后 者 中 取得 有 关 的 信息 ， 并 按 要 求 进行 一 定 的 处 理 
后 再 进行 传输 。 这 种 方式 可 将 不 同 的 信息 分 开 , 减轻 了 各 网 络 总 线 上 的 负载 。CAN 
忆 线 应 用 到 汽车 计算 机 控制 系统 后 ， 所 有 ECU 都 连接 到 CAN 忆 线 上 ， 极 大 地 简 
化 了 汽车 计算 机 控制 系统 的 线路 联系 。 

CAN 总 线 作 为 一 种 可 靠 的 汽车 计算 机 网 络 总 线 , 已 开始 在 先进 汽车 上 得 到 应 
用 ， 使 得 各 汽车 计算 机 控制 单元 能 够 通过 CAN 辟 线 共 圣 所 有 信息 和 资源 ， 达 到 
简化 布线 、 减 少 传 感 费 数量 、 避 免 控 制 功 能 重复 、 拓 噩 系 统 可 徘 性 和 维护 性 、 降 
低 成 本 、 更 好 地 匹配 和 协调 各 个 控制 系统 的 目的 。 


2.2.4 FlexRay 总 线 
为 了 满足 未 来 的 车 内 通信 需要 ， 各 大 汽车 及 半导体 公司 联合 成 立 了 FlexRay 
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协会 ， 制 定 了 FlexRay 通信 协议 以 实现 高 性 能 的 总 线 通信 。 

FlexRay 总 线 上 的 节点 由 微 控 制 右 、 通 信 控 制 句 、 总 线 监 探 、 总 线 驱 动 嚣 〈 人 发 
送 /接收 驱动 器 ) 和 电源 系统 五 个 部 分 组 成 。 通 信和 功能 主要 由 通信 控制 器 、 总 线 监 
控 及 驱动 器 以 及 这 些 部 分 与 主机 的 接口 完成 。 

为 了 保证 高 的 数据 传输 量 和 可 靠 性 ，FlexRay 在 设计 上 有 如 下 特点 : 

(DD 文 持 静态 事件 和 动态 事件 驱动 的 两 种 通信 机 制 |。 

@ 高 的 数据 传输 速率 和 总 线 使 用 效率 。 

(3) 灵活 的 容错 能 力 ， 文 持 单 通道 和 双 通 道 操 作 。 

由 可 靠 的 错误 检测 功能 ， 包 括 时 域 的 总 线 监测 机 制 和 数字 CRC 校 验 。 

(5) 满足 汽车 环境 要 求 和 质量 要 求 的 控制 器 和 物理 层 。 

@) 可 采用 多 种 总 线 拓扑 结构 ， 包 括 总 线 结构 、 星 形 结构 以 及 多 星 形 结构 。 

FlexRay 是 继 CAN 和 LIN 之 后 出 现 的 最 新 研发 成 果 ， 非 常 适用 于 线 控 系 统 
(X-by 一 Wire )。FlexRay 两 个 信道 上 的 数据 速率 最 大 可 达到 10Mbits， 总 数据 速率 
可 达到 20Mbit/s。 应 用 在 车 载 总 线 时 ，FlexRay 的 总 线 带 宽 是 CAN 的 20 倍 之 多 。 
FlexRay 还 能 够 提供 很 多 CAN 总 线 所 不 共有 的 可 靠 性 特点 ， 尤 其 是 FlexRay 具备 
的 元 余 通信 和 能力 可 通过 硬件 完全 复制 总 线 配 置 ， 并 进行 进度 监测 。 另 外 ，FlexRay 
可 以 进行 同步 《实时 ) 和 异步 的 数据 传输 ， 来 满足 车 辆 中 各 种 系统 的 需求 。 























车 载 议 备 应 用 


目前 车 辆 车 载 设备 的 车 联网 应 用 主要 是 在 车 上 的 车 载 乔 能 终 珊 。 知 能 车 载 终 
闹 ( 叉 称 卫 星 定 位 智能 车 载 终 痢 ) 融合 了 GPS 技术 、 里 程 定位 技术 及 汽车 黑匣子 
技术 ， 能 用 于 对 运输 车 辆 的 现代 化 管理 ， 包 括 行 车 安全 监控 管理 、 运 营 省 理 、 服 
务 质量 管理 、 智 能 集中 调度 管理 、 电 子 站 牌 控制 管理 等 。 


2.3.1 汽车 厂 丙 领域 


为 了 满足 车 联网 技术 要 求 ， 许 多 著名 汽车 生产 商 正在 积极 从 事 车 载 智能 终端 
的 研 肥 工作， 代表 性 的 有 美国 通用 公司 的 安 襄 星 〈Onstar) 汽车 安全 信息 系统 
(图 2-15)， 日 本 丰田 公司 的 G-BOOK 智能 副 驾 系统 (图 2-16)， 宝 马公 司 的 
“Intelligent-Drive System”(IDS, 图 2-17), 以 及 福特 公司 的 Synchronization (Sync) 
系统 (图 2-18) 等 。 所 有 这 些 镶 能 终端 的 运营 模式 几乎 一 致 ， 都 是 发 生 在 车 载 设 
备 与 相应 的 远程 中 心 之 间 。 例 如 : Onstar 的 自动 撞车 报警 功能 是 通过 在 前 后 防 撞 
杆 、 车 门 、 车 内 的 气 虹 其 至 车 顶 分 别 安装 人 磁 撞 感应 仪器 实现 的 。 一 旦 车 辆 的 磁 撞 
突破 了 感应 右 的 临界 点 ， 车 辆 的 信号 发 射 占 就 会 第 一 时 间 给 OnStar 拨 通 电话 。 在 
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这 个 过 程 中 ， 车 辆 的 GPS 信息 已 经 被 锁定 ， 相 关 部 门 可 以 立即 到 现场 救援 。 
G-BOOK 以 无 线 网 络 连 接 数 据 中 心 ， 获 得 包括 紧急 救援 、 防 盗 退 踪 、 道 路 救援 、 
保养 通知 、 话 务 员 服 务 、 资 讯 服 务 、G 路 径 检索 、 预 订 服 务 、 网 络 地 图 接收 、 高 
速 公 路 安全 敬 驶 提醒 以 及 图 形 交 通信 息 服务 在 内 的 11 大 智能 通信 服务 。 所 有 这 些 
终端 设备 的 信息 交互 都 发 生 在 车 与 远程 服务 中 心 之 间 。 和 车 与 车 之 间 没 有 明显 的 通 
信行 为 ， 不 能 及 时 交换 彼此 的 行车 状态 信息 ， 导 致 存在 事故 隐患 时 不 能 主动 避免 
潜在 交通 事故 的 发 生 。 


i 








2-15 通用 Onstar 2-16 丰田 G-BOOK 





2-17 宝马 IDS 2-18 福特 Sync 


2.3.2 ”公共 交通 领域 








公共 交通 指 城市 范围 内 定 线 运营 的 公共 汽车 、 渡 轮 、 索 道 等 交通 方式 。 这 些 
交通 工具 都 是 固定 时 间 发 车 ， 易 产生 资源 配置 不 合理 的 问题 。 如 果 通 过 车 联网 进 
行 客流 量 检测 ， 合 理 配 置 公 共 资 源 ， 则 可 以 有 效 地 提高 资源 利用 率 。 为 满足 公共 
交通 领域 对 于 车 联网 的 需求 ， 国 内 公司 推出 了 各 种 型 号 的 车 载 终端 设备 ， 例 如 监 
斯 车 载 定 位 终端 LZ8713H 2.0 (图 2-19 一 图 2-21 所 示 )。 该 设备 是 集 卫 星 定 位 监 
控 、 硬 盘 录 像 存 储 、 多 重 防震 、Wi-Fi、 远 程 实时 视频 监控 、 语 音 通 话 、TTS 语音 
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播报 、 公 交 报 站 、CAN 总 线 接口 及 行驶 记录 仪 功能 
等 多 种 先进 功能 于 一 体 的 智能 化 公交 终端 产品 。 其 
外 观 为 铝 合金 散热 斤 形 制 ,可 达到 整体 散热 的 效果 ， 
大 大 提高 散热 、 防 侍 、 防 水 、 防 锈蚀 等 性 能 。 该 设 
备 是 按 交 通 部 JT/T 794 一 2011 《道路 运输 车 辆 卫星 
定位 系统 ”车 载 终 新 技术 要 求 》 和 JT/T 808 一 2013 
《道路 运输 车 辆 卫星 定位 系统 ”北斗 兼容 车 载 终端 
通信 协议 及 技术 规范 》 的 技术 标准 设计 的 终端 设备 。 








图 2-20 ”前 面板 图 2-21 后 面板 
对 于 终端 设备 ，JT/T794 一 2011 提出 了 如 下 的 要 求 : 





GO 目 检 功能 : 通过 信号 灯 或 显示 屏 明 确 表 示 和 车 载 终 问 当前 主要 状态 , 包括 卫 
星 定 位 及 通信 模块 工作 状态 、 主 电源 状态 、 卫 星 定 位 天 线 状 态 、 与 终端 主机 相连 
的 其 他 设备 状态 等 。 奢 出现 故 障 ， 则 通过 信号 灯 或 显示 屏 等 显示 方式 显示 故障 类 
型 等 信息 ， 和 存储 并 上 传 至 监控 中 心 。 

G@ 定位 功能 : 终端 应 能 提供 实时 的 时 间 、 经 度 、 纬 度 、 速 度 、 高 程 和 方 癌 等 
定位 状态 信息 ， 可 存储 到 终 闹 内 部 ， 同 时 通过 无 线 通 信和 方式 上 传人 至 监控 中 心 ， 到 
分 定位 功能 为 可 选 ， 终 端 应 能 接收 一 个 或 多 个 监控 中 心 的 定位 请 求 进行 定位 信息 
上 传 , 并 能 按 监控 中 心 要 求 中 止 对 应 中 心 的 实时 上 报 ; 终端 应 能 在 通信 中 断 时 (下 
区 ) 以 先进 先 出 方式 存储 不 少 于 10 000 条 定位 信息 ， 在 恢复 通信 后 将 存储 的 定位 
言 轧 补报 上 传 ， 可 根据 需要 采用 压缩 方式 上 传 ， 终 站 应 文 持 时 间 、 距 离间 隅 或 外 
部 事件 触 肥 方式 上 传 定 位 信息 。 当 终端 处 于 休 虐 状态 时 ， 也 应 以 一 定时 间 间 隔 上 
传 定 位 信息 ， 且 时 间 和 距离 的 间 隅 可 由 监控 中 心 设 定 ; 终端 可 目 动 对 报警 车 辆 或 
重点 车 辆 按 监 控 中 心 设 定 的 定位 方式 及 间隔 上 传 定 位 数据 。 

(3) 通信 功能 : 终 中 应 文 持 全 少 两 个 远程 连接 , 即 主 监控 中 心 和 备份 监控 中 心 
的 链接 ， 能 在 与 主 监 控 中 心 通信 中 断 时 目 动 切换 至 备份 监控 中 心 ， 如 来 终 痢 无 法 
注册 到 所 在 地 的 无 线 网 络 ， 则 应 将 数据 以 先进 先 出 方式 保存 ， 和 直人 至 注册 a 到 无 线 网 
络 时 一 并 发 送 。 如 果 保 存 数据 超过 最 大 容量 ， 则 应 按时 间 顺 序 将 最 先 保 存 的 数据 
丢 莽 ; 终 闹 应 文 持 数据 批量 接收 与 发 送 功能 、 断 后续 传 功能 。 

4) 信息 采集 功能 : 终 问 应 文 持 对 于 驾驶 员 从 业 资 格 证 信息 的 采集 、 电 子 运 单 
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信息 的 采集 与 显示 ， 通 过 CAN 忆 线 采集 车 辆 参数 信息 ， 对 于 车 辆 载 货 状 态 的 检 
测 、 对 于 收费 络 算 数据 的 采集 、 对 于 疼 像 信息 采集 及 存储 ， 文 持 监 控 中 心 控 制 、 
定时 和 事件 触发 方式 实现 图 像 信息 和 首 频 信息 的 采集 、 存 储 、 上 传 及 检索 上 传 ， 
文 持 通 过 USB 接口 对 图 像 信 息 的 导出 。 终端 可 具有 音频 信息 采集 及 存储 功能 , 文 
持 监 控 中 心 控制 和 事件 触及 方式 实现 音频 信息 的 采集 、 压 缩 、 存 储 、 上 传 及 检索 
上 传 功能 ; 文 持 通过 USB 接口 对 音频 数据 的 导出 。 

(5) 通话 功能 : 终 咒 可 具有 电路 域 通话 功能 和 通话 管理 功能 ， 包 括 通 话 限制 、 
语音 人 存储、 电话 每 管 理 、 电 话 回 拨 、 音 量 调节 、 来 电 目 动 摘 机 等 。 

(@) 休眠 蕊 能 : 终端 应 具有 和 车辆 ACC 操 火 检测 功能 。 当 车 辆 煜 火 后 ， 终 并 问 
监控 中 心 发 送 车 辆 煜 火 信 号 并 目 动 进入 休眠 状态 。 

CO 警示 功能 : 终端 触及 警示 时 应 立即 同 监 控 中 心 上 传 警示 信息 或 根据 需要 加 
指定 手机 发 送 短 消息 警示 信息 ， 并 能 接收 监控 中 心 指 令 取 消 交 示 ， 葡 未 手机 号 但 
可 由 监控 中 心 远程 设置 。 终 剖 警 示 功 能 包括 人 工 报警 、 区 域 拓 醒 、 路 线 偏离 提醒 、 
超速 提醒 、 疲 到 行驶 提醒 、 荔 电池 穴 压 捉 醒 、 断 电 提 醒 、 超 时 俘 车 提醒 、 终 疹 故 
障 提醒 等 。 


2.3.3 私人 交通 领域 


2017 年 ， 国 内 统计 的 汽车 保有 量 超 过 了 3 亿 ， 车 联网 的 需求 日 益 迫 切 ， 为 了 
将 数量 庞大 的 数据 从 每 一 辆 单独 的 汽车 
上 传 到 云端 平台 , 形成 大 数据 的 数据 库 ， -<>~ 
需要 在 车 辆 上 安装 一 个 实现 车 辆 和 平台 ET 
数据 连接 的 车 载 终端 ， 如 图 2-22 所 示 。 
该 终端 采用 了 外 置 GPS 或 双 模 定 
位 的 方式 ， 获 得 精度 更 高 的 位 置 数据 ， 
卫星 定位 速度 更 快 。 设 备 可 以 通过 近 端 
SD 卡 进行 固件 升级 ， 也 文 持 FTP 远程 
固件 升级 ， 可 大 大 降低 维护 的 工作 量 。 
同时 ， 它 还 支持 串口 参数 设计 ， 也 可 根 图 2_-22 ”车载 终端 实物 图 
据 车 厂 提 供 的 BMS 及 车 辆 仪表 协议 ， 
通过 dbcS 配 置 方式 ， 可 快速 定制 车 型 的 协议 。 在 通信 方面 ， 设备 最 多 可 同时 文 持 
两 个 主 站 后 台 进 行 数据 传输 。 





















































昌 ”dbc 文件 是 由 德国 维 克 多 公司 发 布 的 ， 它 被 用 来 描述 单一 CAN 网 络 中 各 逻辑 节点 信息 ， 依 据 该 文件 可 以 
开发 出 来 监视 和 分 析 CAN 网 络 中 所 有 逻辑 节点 的 运行 状态 ， 也 可 以 是 有 针对 性 的 ECU 通信 应 用 软件 。 
dbc 是 一 种 文件 格式 ，.dbc 文件 是 一 个 ASCII 格式 的 文件 ， 其 .dbc 扩展 名 可 用 于 定义 CAN 网 络 。 
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现代 汽车 电子 领域 的 技术 已 经 非 营 成 熟 ， 每 时 每 刻 汽 车 上 的 各 种 传 感 硕 都 在 
进行 痢 对 汽车 不 同 参数 的 测量 ， 例 如 里 程 表 传 感 故 、 车 速 传 感 右 、ABS 传 感 右 、 
安全 气 宫 传 感 磊 以 及 GPS 传 感 右 等 。 而 与 传统 车 辆 相 比 ， 在 新 能 源 汽车 上 有 为 外 
一 些 特 殊 的 传感器 ， 比 如 电机 转速 传 感 响 、 电 池 电 压 /电流 传感器 、 电 池 光 度 传 感 
独 以 及 充电 传 感 带 等。 这 些 传 感 带 采集 的 数据 退 过 各 目的 ECU ( 电 控 单元 ) 转化 
成 数字 信号 在 汽车 CAN 总 线 中 传输 。 

该 终端 采集 数据 的 具体 流程 为 : 通过 GPRS 协议 从 CAN 总 线 中 读 取 数 据 ， 
例如 电池 电流 、 电 压 、 温 度 、 车 速 、GPS 定位 信息 等 ,再 遵循 国家 标准 TCP 协议 ， 
以 数据 流 的 方式 将 数据 传送 到 云端 大 数据 平台 ， 平 台 根 据 得 到 的 数字 信号 数据 ， 
参照 国标 将 所 需要 的 信息 翻译 出 来 ， 最 终 形成 可 以 为 数据 平台 所 利用 的 数据 。 




















新 能 源 汽 车 车 联网 大 数据 平台 


2.4.1 ”新 能 源 汽 车 大 数据 平台 的 应 用 背景 


1. 新 能 源 汽车 安全 监管 的 国家 政策 要 求 

国务 院 对 新 能 源 汽车 安全 问题 高 度 重 视 。 国 务 院 相关 领导 人 在 新 能 源 汽车 
产业 发 展 座谈 会 上 对 新 能 源 汽车 的 安全 指出 : 要 强化 远程 运行 的 监控 体系 ， 以 
建立 体系 、 统 一 要 求 、 落 实 责任 为 重点 ， 加 快 敢 盖 国家、 地 区 、 企 业 运 行 的 监 
控 平 台 。 

与 此 同时 , 国家 对 于 新 能 源 车 辆 的 安全 管理 出 台 了 多 项 管理 规定 及 技术 规范 : 

@ 2011 年 9 月 ， 科 技 部 、 财 政 部 、 工 信 部 和 发 改 委 四 部 门下 发 国 科 办 函 高 
(2011) 322 号 明确 规定 : 对 投入 示范 运行 的 插 电 式 混合 动力 汽车 、 纯 电动 汽车 要 
全 部 安装 车 辆 运行 技术 状态 实时 监控 装置 ， 特 别 是 要 加 强 对 动力 电池 和 燃料 电池 
工作 状态 的 监控 。 

@ 工业 和 信息 化 部 2016 年 发 布 第 39 号 令 规定 : 新 能 源 汽车 生产 企业 应 当 建 
立新 能 源 汽车 产品 运行 状态 监控 平台 ， 对 已 销售 的 全 部 新 能 源 汽车 产品 的 全 生命 
周期 运行 和 安全 状态 进行 实时 监控 。 企 业 监 控 平台 应 当 与 地 方 和 国家 的 监管 平台 
对 接 。 

(3) 2016 年 11 月 11 日 , 工业 和 信息 化 部 发 布 《工业 和 信息 化 部 关于 进一步 做 好 
新 能 源 汽 车 推广 应 用 安全 监管 工作 的 通知 》( 工 装 函 (2016) 377 号 ) 中 明确 指出 : 
“应 按照 国家 标准 要 求 , 利用 信息 化 手段 建立 健全 公共 服务 领域 新 能 源 汽车 推广 应 
用 地 方 监测 平台 ， 实 时 接收 来 自 车 辆 生产 企业 转发 的 本 辖区 内 公共 服务 领域 新 能 
源 整 车 运行 安全 状态 、 行 驶 里 程 和 充电 量 ， 整 车 和 动力 电池 、 驱 动 电机 等 关键 系 
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统 故 障 等 信息 。 地 方 监测 平台 应 设置 国家 监测 平台 接口 ， 接 受 国 家 监测 平台 的 监 
督 抽查 ， 在 接 到 国家 监测 平台 实时 数据 调用 指令 时 ， 应 当 按 指令 要 求 将 相关 信息 
上 传 至 国家 监测 平台 …… 

2. 新 能 源 汽车 行业 应 用 与 管理 需求 

新 能 源 汽车 正 处 于 新 兴 发 展 的 黄金 期 ， 大 量 的 新 技术 在 新 能 源 汽车 上 得 以 
应 用 ， 大 批 的 资金 涌 入 新 能 源 领 域 ， 许 多 车 企 开 始 侧重 上 友 展 新 能 源 汽车 。 新 能 
源 汽 车 行业 正 处 于 一 个 上 升 期 。 与 传统 乘 用 车 不 同 的 是 ， 新 能 源 汽车 的 电子 设 
备 数量 及 其 采集 的 数据 量 相 比 之 前 有 了 巨大 的 提升 ， 普 通行 车 电脑 已 不 能 满足 
数据 记录 需求 ， 且 该 方法 没有 即时 更 新 的 数据 ， 时 效 性 较 差 ， 这 对 于 一 个 新 兴 
发 展 的 行业 是 一 种 极 大 的 限制 。 另 外 ， 由 于 新 能 源 汽 车 的 行车 安全 问题 依赖 于 
前 期 的 数据 分 析 发 现 ， 且 其 发 生 事故 的 救援 难度 相 比 普通 燃油 车 要 大 得 多 ， 因 
此 ， 大 部 分 车 企 都 对 新 能 源 汽 车 有 痢 较 高 的 数据 传输 分 析 及 管理 需求 。 为 了 满 
足 目前 急迫 的 新 能 源 汽车 发 展 需求 ， 为 了 更 好 地 对 新 能 源 汽车 的 车 辆 运行 状态 
进行 监控 ， 同 时 反馈 给 车 企 指导 下 一 步 的 设计 优化 工作 ， 建 并 数据 实时 收发 、 
实时 分 析 监 控 的 数据 平台 的 方案 便 应 运 而 生 。 依 托 数 据 平 台 ， 新 能 源 车 企 不 仅 
仅 可 以 节省 在 监控 及 维护 上 的 人 力 成 本 ， 同 时 其 中 的 大 量 实 车 数据 也 可 以 帮助 
有 效 地 缩短 车 辆 的 研发 周期 ， 大 大 地 降低 研发 成 本 ， 加 速 新 能 源 汽车 行业 同 更 
高 水 平 发 展 。 

3.“ 新 能 源 汽车 ”+“ 大 数据 ”融合 应 用 的 需求 

当前 ， 新 一 轮 科技 革 命 和 产业 变革 与 我 国 加 快 转变 经 济 发 展 方式 形成 历史 性 
交汇 ， 国 际 产业 分 工 格 局 正在 重 塑 。2015 年 ， 国 务 院 正式 印发 《中 国 制造 2025》， 
确定 了 在 新 形势 下 大 力 推 动 制造 业 由 大 变 强 ， 在 技术 含量 高 的 重大 装备 等 先进 制 
造 领 域 勇 于 争先 的 主要 方 同 。 新 能 源 汽 车 行业 作为 制造 业 与 高 新 技 业 的 交叉 产业 ， 
同时 也 作为 《中 国 制造 202$》 中 明确 指出 的 十 大 重点 发 展 领域 之 一 ， 理 应 紧 紧 抓 
住 这 一 重大 历史 机 遇 。 

2017 年 ， 中 国 智 能 网 联 汽车 产业 创新 联盟 正式 成 立 。 随 独 电子 信息 通信 等 技 
术 与 汽车 产业 的 加 速 融合 ， 汽 车 产品 加 快 癌 智能 化 、 网 联 化 的 方 同 发 展 ， 生 产 方 
式 回 互联 协作 的 智能 制造 体系 演进 ， 服 务 模式 呈现 出 信息 化 、 共 享 化 的 趋势 ， 
带 有 人 鲜明 路 界 融 合 特征 的 智能 网 联 汽车 是 汽车 产业 转型 升级 过 程 中 最 重要 的 创 
新 载体 。 

在 《中 国 制 造 2025》 及 智能 网 联 汽车 联盟 成 立 的 大 背景 下 ， 新 能 源 汽 车 与 车 
辆 大 数据 的 融合 应 用 是 顺应 发 展 需求 的 必然 结果 。 新 能 源 汽车 大 数据 平台 的 建立 ， 
可 以 将 新 能 源 汽 车 技术 及 知 能 网 联 技术 又 冤 地 结合 起 来 ， 使 得 两 项 技术 可 以 相互 
促进 ， 相 互 文 撑 。 这 种 高 度 的 融合 必 将 大 大 加 速 《 中 国 制造 202$》 及 智能 网 联 汽 
车 在 新 能 源 汽车 领域 的 早日 实现 。 
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2.4.2 ”新 能 源 汽车 大 数据 平台 的 架构 


下 和 面 以 北 东 理工 大 学 新 能 源 汽车 监测 与 定理 平台 为 例 ， 介 绍 新 能 源 汽车 大 数 
据 平 台 的 整体 架构 。 新 能 源 汽车 大 数据 平 合 采 用 Hadoop 体系 架构 ， 与 阿里 巴巴 、 
泵 东 等 公司 的 大 数据 技术 同步 ， 同 时 具有 更 大 的 灵活 性 和 可 扩展 性 。 如 图 2-23 
We 几 人 天 

(D 最 的 层 是 米 集 层 ， 人 负 员 平台 数据 的 采集 。 平台 的 数据 来 源 有 车载 终 剖 、 省 
级 平台 、 日 志 流 以 及 第 三 方 平台 的 数据 。 

@ 采集 层 之 上 是 大 数据 层 。 大 数据 层 对 采集 层 采 集 的 数据 进行 集群 分 类 。 采 
集 层 的 数据 首先 进入 大 数据 层 的 蜗 速 服务 总 线 ， 然 后 由 大 数据 层 对 其 进行 实时 计 
算 并 存 入 绥 存 集群 或 通过 数据 层 的 统一 接口 存 入 Hdfs (Hadoop 分 布 式 文件 系统 ) 
集群 、 索 引 数据 集群 、 关 系数 据 集 群 。 

















汽车 监测 与 管理 平台 


新 能 源 j 
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可 视 化 it ，， 
系统 屏幕 展示 未 微 信 展示 


(检测 官网 】 (符合 性 检测 】 (车辆 监测 ] 
(监管 各 查 】 【安全 办 报表 统计 ] 
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了 上涨 江 一口 产 





























(GB/T 32960+ 自 定义 扩展 ) (GB/T 32960+ 自 定义 扩展 ) 


图 2-23 ”数据 采集 、 存 储 、 控 掘 流程 图 


42 


第 2 章 
新 能 源 汽车 车 联网 技术 


(3) 大 数据 层 之 上 是 分 析 层 , 可 对 大 数据 层 传 来 的 数据 进行 分 析 计 算 。 分 析 层 
有 具有 实时 计算 、 离 线 计算 、 图 计算 、 机 器 学 习 、 人 情境 感知 等 多 个 引擎 ， 有 进行 业 
务 规则 建 模 、 标 签 规 则 建 模 、 清 洗 / 结 构 化 /统计 建 模 的 能 力 ， 可 进行 数据 清洗 以 及 
充电 行为 、 续 驶 能 力 、 轰 驶 行为 、 故 障 追 调 、 车 辆 画像 等 的 分 析 。 

(4) 分 析 层 之 上 是 服务 层 , 可 利用 分 析 层 的 处 理 结果 提供 多 项 服务 。 服 务 层 包 
含 多 个 云 平 台 ， 包 括 用 户 云 、 监 控 云 、 故 障 云 、 运 维 云 和 专家 决策 云 ， 可 提供 容 
器 托管 、 镜 像 仓 库 、 服 务 管理 等 多 项 功能 。 

二 平台 还 设 有 展示 层 , 主要 有 大 屏幕 展示 、 微 信服 务 展示 以 及 通过 平台 研发 
的 分 别 适 用 于 安 卓 和 IOS 系统 的 APP 展示 。 

目前 ， 该 平台 已 经 掌握 了 新 能 源 汽车 海量 数据 接 入 、 数 据 分 析 、 大 数据 处 理 、 
分 布 式 计算 、 数 据 可 视 化 展示 等 多 项 核心 技术 ， 实 现 了 海量 可 横 同 扩展 的 设备 接 
入 能 力 、 海 量 可 模 辐 扩展 的 大 数据 存储 能 力 、 多 种 针对 新 能 源 特 性 的 数据 挖掘 与 
分 析 能 力 、 多 样 化 新 能 源 汽 车 生产 智 意 服务 能 力 。 基 于 数据 欣 掘 ， 可 提供 面 癌 不 
同 用 户 群 的 差异 性 、 个 性 化 数据 分 析 和 技术 服务 。 基 于 大 数据 平台 的 对 外 开放 API 
(应 用 程序 接口 )， 实 现 与 其 他 平台 则 的 数据 互联 互通 。 


2.4.3 ”新 能 源 汽车 大 数据 平台 的 功能 


在 采集 了 大 量 的 车 辆 数据 信息 后 ， 经 过 整理 及 分 析 ， 可 以 为 驾驶 员 的 安全 芍 
驶 、 和 车辆 部 件 性 能 分 析 与 监控 等 诸多 方面 提供 帮助 ， 具 体 分 析 举 例如 下 : 

(DD 区 驶 行为 分 析 。 可 结合 采集 到 的 加 速度 、 转 回 盘 转角 、 加 速 踏板 开 度 等 参 
数 分 析 用 户 在 不 同 场景 、 不 同 环境 下 的 和 车辆 使 用 情况 ,包括 行驶 环境 、 起 步 习 惯 、 
仿 速 状况 及 加 速 行 为 等 。 

@ 车 辆 性 能 分 析 。 可 分 析 和 车辆 在 实际 道路 环境 下 的 加 速 、 减速 、 转 弯 等 性 能 
表现 ， 为 车 辆 研 友 提供 重要 的 依据 。 

(3) 电池 寿命 预测 。 通 过 对 电池 充 放电 次 数 监 控 、 电 池 的 台 减 度 分 机 ， 预 测 电 
闻 的 剩余 使 用 寿命 。 

网 电池 性 能 评估 。 通 过 分 析 充 电 电 压 、 充 电 电 流 、 放 电 电 压 、 放 电 电流 等 指 
标 ， 可 得 出 电池 的 充电 性 能 曲线 、 放 电 性 能 曲线 、 容 量变 化 曲线 和 目 放 电 率 曲线 
等 ， 进 而 评估 电池 的 性 能 。 

() 电池 有 惨 减 评估 ,通过 监测 充 放 电 次 数 和 电池 容量 的 关系 , 结合 纯 电 续 驶 里 
程 和 使 用 温度 等 指标 ， 可 实时 计算 出 电池 的 有 娶 减 度 。 

(@) 电机 性 能 分 析 。 通 过 对 电机 表现 的 评估 ， 计 算 转 和 窍 性 能 曲线 、 功 率 性 能 曲 
线 和 电机 系统 驱动 效率 曲线 每 ， 进 而 分 析 电 机 的 整体 性 能 。 

CO 客户 画像 。 通过 对 车 主 的 行驶 区 域 、 驾 驶 习惯 、 驾 驶 风格 等 方面 进行 分 析 ， 
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将 车 主 分 为 几 类 ， 并 对 每 一 类 车 主 的 特征 进行 精确 定义 ， 从 而 为 车 辆 销售 、 针 对 
性 的 广告 投放 提供 依据 。 

行程 分 析 。 行程 是 指 车 主 起 动车 辆 到 烽火 停车 之 间 的 驾驶 区 间 。 行程 分 析 
是 根据 区 驶 区 间 用 户 的 安全 、 经 济 方面 的 表现 ， 以 安全 得 分 、 绿 色 得 分 、 安 全 指 
标 〈 急 加 速 、 急 减速 、 急 转弯 等 )、 绿 色 指 标 〈 百 公里 能 耗 ) 为 主体 进行 展示 。 

G@ 远程 诊断 。 基 于 实时 的 行车 数据 流 对 车 辆 发 生 的 故障 进行 分 析 , 将 分 析 结 
果 提 供给 车 主 或 者 维修 店 ， 对 于 未 发 生 的 故障 ， 对 其 存在 的 风险 进行 预 判 ， 及 时 
提醒 车 主 。 

d0 智能 提醒 。 在 车 辆 行驶 过 程 中 ,通过 监控 车 辆 的 运行 状况 、 芍 驶 表现 、 坏 
境 参 数 等 对 车 主 进行 智能 提醒 ， 以 使 其 更 加 安全 、 经 济 地 芍 驶 。 

通过 采集 到 的 数据 ， 还 可 进行 道路 视角 分 析 、 天 气 视角 分 析 、 安 全 驾驶 、 能 
耗 分 机 、 罗 驶 排名 、 驾 驶 报告 、 车 辆 档案 、 零 部 件 耐 入 性 分 析 、 零 部 件 失 效 分 析 
以 及 时 间 视 角 分 析 等 。 

新 能 源 汽 车 产业 进入 大 数据 移动 互联 网 时 代 ， 应 该 用 大 数据 的 思维 观念 来 处 
理 数 据 ， 挖 掘 数据 的 潜在 价值 。 新 能 源 汽车 作为 通信 、 计 算 机 、 电 力 电子 、 动 力 
控制 和 驱动 技术 以 及 新 材料 技术 等 交通 运输 领域 集成 应 用 的 产物 ， 也 为 云 计 算 、 
大 数据 和 智能 终 剖 等 新 技术 提供 了 率先 应 用 的 环境 。 大 数据 的 开发 应 用 以 及 互联 
网 下 维 的 充分 运用 ， 将 会 推动 新 能 源 汽车 产业 更 加 快速 地 及 展 ， 为 人 类 创造 美好 
的 环境 以 及 美好 的 生活 。 


























新 能 源 汽 车 车 联网 应 用 实例 分 析 


上 而 通过 对 和 车辆 车 载 忌 线 技术 和 和 车载 留 能 设备 的 论述 ， 说 明了 车 辆 本 里 的 便 
件 为 适应 车 辆 网 联 化 和 电气 化 的 发 展 。 本 节 将 就 车 联网 在 车 辆 上 的 应 用 实例 来 对 
车 联网 这 一 概念 进行 分 析 。 


2.5.1 车 联网 技术 在 智慧 交通 方面 的 应 用 


智 芒 交通 是 在 整个 交通 运输 领域 充分 利用 物 联网 、 空 间 感 知 、 云 计算 、 移 动 
互联 网 等 新 一 代 信息 技术， 综合 运用 交通 科学 、 系 统 方法 、 人 工 智能 、 知 识 挖掘 
等 理论 与 工具 ， 以 全 面 感知 、 深 度 融 合 、 主 动 服务 、 科 学 决 案 为 目标 ， 通 过 建设 
实时 的 动态 信息 服务 体系 ， 深 度 挖 据 交 通 运输 相关 数据 ， 形 成 问题 分 析 模 型 ， 实 
现行 业 资源 配置 优化 能 力 、 公 共 诀 策 能 力 、 行 业 犁 理 能 力 、 公 众 服 务 能 力 的 提升 ， 
推动 交通 运输 更 安全 、 更 高 效 、 更 便捷 、 更 经 济 、 更 环保 、 更 舒适 地 运行 和 发 展 ， 
市 动 交 通 运输 相关 产业 转型 升级 。 
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1. 智能 化 网 联 停车 

中 国 目 前 停车 技术 普遍 处 于 人 工 和 半 人 工 服 务 结合 的 管理 ， 少 见 有 覆盖 全 市 的 
联网 服务 和 全 自动 化 的 管理 。 这 种 低 效 和 低 品 质 的 服务 在 汽车 日 益 增长 的 情形 下 
使 停车 难 问题 日 益 突 显 。 此 外 ， 路 边 停 车 管理 缺失 是 普遍 存在 的 问题 ， 小 区 和 商 
业 区 停车 难 、 寻 车 难 的 现象 普遍 存在 。 基 于 车 联网 技术 可 以 实现 车 辆 出 入 自动 识 
别 和 管理 ， 同 时 也 可 以 实现 自动 电子 缴费 ， 借 此 可 以 构建 面向 全 市 的 车 联网 停车 
收费 、 管 理 和 信息 服务 网 络 。 通 过 模糊 停车 服务 ， 用 户 可 以 全 自动 出 入 和 自动 化 
电子 付费 ， 可 以 实时 获知 周围 小 区 的 停车 信息 ， 可 以 预定 车 位 ， 从 而 较 大 提高 停 

车 效率 ， 减 少 因为 停车 造成 的 额外 交通 压力 ， 如 图 2-24 所 示 。 

















2-24 ”智能 停车 


2. 城市 拥堵 管理 

在 某 些 大 型 城市 的 核心 商业 区 ， 过 多 的 汽车 出 入 已 经 让 这 些 区 域 的 交通 严 
重 亚 化 ， 通 行 效率 急剧 降低 。 对 于 出 入 核心 商业 区 收取 一 定 费 用 可 以 有 效 地 调 
节 该 区 域 的 车 流量 ， 这 在 新 加 坡 和 伦敦 等 城市 已 经 成 功 应 用 。 专 用 短程 通信 
(Dedicated Short Range Communication ) 技术 可 以 实现 目 由 通行 情况 下 的 车 路 
实时 通信 (图 2-25) 和 实时 电子 支付 , 是 目前 世界 上 实现 拥堵 收费 和 管理 的 主 
流 技 术 。 

3. 不 停车 营运 车 辆 管理 

国家 对 “两 客 一 危 ” 营 运 和 车辆 规定 要 求 安 冯 符 合 国家 标准 (JT/T 7 94 一 2011) 
的 卫星 定位 车 载 终端 。 该 终端 以 车 辆 传 感 、GPS/ 北 斗 及 4G/3G 技术 为 基础 可 以 实 
现 对 车 辆 行驶 记录 、 定 位 和 监控 。 结 合 专用 短程 通信 技术 ， 可 以 实现 营运 车 辆 出 
入 场 站 、 和 车辆 和 人 员 不 停车 稽 得 、 沿 途 重 要 站 点 上 自动 稿 得 、 基 于 特殊 位 置 的 实时 
言 轧 接收 及 交通 路口 特殊 车 辆 优 移 放行 等 应 用 。 
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图 2-25 ”实时 车 路 通信 


4. 安全 驾车 应 用 

基于 车 联网 技术 一 方面 可 以 通过 移动 互联 网 获取 道路 周边 的 交通 状况 信息 ， 
也 可 以 通过 专用 短程 通信 技术 获取 在 途 的 事故 或 者 交通 安全 信息 ， 且 通过 车 与 车 
(图 2-26)、 车 与 路 之 间 的 信息 交换 ， 可 实现 大 雾 大 雨天 气 、 弯 道 、 交 叉 口 、 和 危险 
路 段 的 避让 预警 ， 再 结合 行人 检测 技术 ， 就 可 以 有 效 构 建安 全 行车 环境 。 
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图 2-26 车 与 车 信息 交换 


2.5.2 车 联网 在 新 能 源 汽车 上 的 应 用 


在 国外 ， 已 经 有 公司 开展 利用 车 联网 来 监控 管理 新 能 产 汽车 的 运行 参数 ， 所 
高 安全 性 ， 优 化 新 能 源 汽 车 能 量 使 用 效率 。 
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1. 安吉 星 ( OnStar ) 的 新 能 源 汽车 应 用 功能 

添 蓝 达 (Vlot) 是 通用 汽车 公司 开发 的 一 款 增 程 型 电动 车 ，2010 年 12 月 在 美 
国 上 市 。 沃 蓝 达 在 纯 电 动 模式 下 最 高 可 行驶 80km， 增 程 模式 下 的 续 驶 总 里 程 达 
570km，0 一 100km/h 加 速 时 间 约 为 gs， 最 高 车 速 为 160km/h， 并 获得 NHTSA 美 
国 国家 高 速 公路 交通 安全 管理 局 五 星 安全 评级 , 关键 组 件 可 享受 6 年 /15 万 公里 超 
长 质保 。2011 年 ， 美 国 国 家 交通 安全 管理 局 对 沃 蓝 达 进行 了 碰撞 测试 ， 测 试 之 后 
被 撞 测 试车 停放 到 停车 场 ， 曾 出 现 两 次 意外 着 火 事 故 。 这 一 事故 影响 了 沃 赣 达 的 
销量 。 为 了 保证 沃 赣 达 的 安全 行驶 ， 安 吉星 开发 了 手机 应 用 程序 〈 图 2-27)， 可 
以 在 iPhone、 安 时 和 黑莓 手机 上 运行 。 安 吉星 也 即将 在 我 国 推出 专 为 沃 赣 达 设 计 
的 手机 应 用 功能 。 访 手机 应 用 程序 除了 集成 之 前 已 经 为 大 家 耳熟能详 的 远程 车 门 
上 锁 / 解 锁 、 远 程 起 动 、 车 位 提示 等 应 用 ， 还 将 同 车 主 显示 电池 电量 、 电 动 续 驶 里 
程 、 充 电 开 始 ( 完 成 ) 时 间 、 电 压 、 充 电 状 态 等 一 系列 包含 电池 信息 的 车 况 数据 ; 
沃 蓝 达 的 车 主 还 将 可 以 通过 手机 浏览 充电 模式 (立即 充电 模式 、 基 于 出 发 时 间 和 
费 率 充电 模式 、 基 于 出 发 时 间 充 电 模 式 )， 甚 至 通过 手机 一 键 启动 充电 。 它 提供 如 
下 控制 功能 ( 表 2-3 ): 














表 2-3 控制 功能 


功能 说 明 
充电 开始 充电 ， 改 变 充电 模式 
车 辆 控制 上 锁 /解锁 功能 ， 远 程 起 动 
导航 导航 及 专业 顾问 服务 
续 驶 实时 显示 续 驶 里 程 ， 当 前 电池 剩余 电量 ， 当 前 剩余 燃料 ， 图 形 化 燃油 效率 
安全 通过 短 消 妃 及 邮件 设置 充电 报警 ， 显 示 实 时 胎 压 信息 ， 管 理 账号 
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图 2-27 手机 应 用 程序 
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2. 日 产 聆 风电 动 汽车 的 ICT 联网 

2010 年 12 月 , 日 产 聆 风电 动 汽车 开始 在 日 本 和 美国 销售 ， 人 至 今 全 球 销量 已 
经 超过 2.2 万 辆 ， 其 中 在 日 本 销售 10 310 辆 ， 在 北美 销售 9788 辆 。 聆 风电 动 汽 
车 前 置 前 驱 ， 交 流 发 电机 的 功率 为 80kW， 转 矩 输出 为 280Nm， 最 高 车 速 可 达 
145km/h， 这 航 里 程 可 达 175km。2010 年 11 月 1 日 , 日 产 发 布 了 用 于 聆 风 电动 
汽车 的 ICT 系统 〈Information and Communication Technology system， 信 息 和 通 
信 技 术 系 统 )。ICT 系统 被 搭载 到 聆 风 电动 汽车 上 ， 在 日 本 、 美 国 和 欧洲 销售 。 
它 为 电动 汽车 的 概 驶 融 来 了 便利 、 和 舒适 和 安全 ， 也 为 低 兢 社会 记录 了 大 量 的 运 
行 数 据 。 

聆 风电 动 汽 车 的 车 主 可 以 借助 ICT 系统 ， 从 日 产 CARWINGS 数据 中 心 获 
得 优化 驾驶 经 验 的 数据 和 信息 .CARWINGS 是 日 产 的 车 联网 系统 , 它 通 过 TCU 
模块 《Telematics Communication Unit， 和 车 联网 通信 和 模块) 帮助 车 载 导航 系统 与 
后 台数 据 中 心 进 行 通 信 ， 从 而 获得 语音 导航 、 安 防 、 上 网 和 娱乐 等 功能 。ICT 
系统 在 CARWINGS 的 网 络 平 台 上 ， 增 加 了 电动 汽车 特有 的 功能 ， 例 如 电动 汽 
车 的 行驶 记录 、 电 池 状 态 、 遥 控 电 池 充 电 、 和 车 内 气候 控制 等 《示例 如 网 2-28 
所 示 )。ICT 系统 可 以 通过 智能 手机 和 电脑 登录 专用 的 网 站 ， 管 理 电动 汽车 的 
能 量 使 用 。ICT 系统 提供 的 服务 有 : 

(1) 在 线 服务 〈 芍 驶 过 程 中 ) 

( 在 地 图 上 显示 可 以 到 达 的 目的 地 功能 : 通过 点 击 屏 舌 , 可 以 检查 出 聆 风电 
动 汽车 可 以 到 达 的 最 远 距 离 。 

( 充电 站 位 置 更 新 功能 : 目 动 更 新 数据 ， 显 示 最 近 的 充电 站 位 置 。 

(3) 充电 计时 器 功能 : 可 以 按照 设置 的 理想 时 间 对 电动 汽车 充电 。 

(2) 离线 服务 〈 芍 驶 前 和 驾驶 后 ) 

Q) 有 避 控 功能 (Remote Control function ): 包括 检查 电池 的 充电 状态 、 控 制 电 
池 充 电 、 估 计 完 成 充电 的 时 间 、 显 示 续 驶 里 程 、 维 护 电池 和 故障 诊断 。 

地 车 内 气候 遥控 功能 : 在 进入 汽车 之 前 ， 遥 控 开 局 空调 系统 ， 使 车 内 保持 舒 
适 的 温度 。 

(3) 耗 电 仿真 功能 : 每 次 驾驶 结束 后 ， 显 示 预 测 的 消耗 电量 的 费用 ， 同 时 显示 
车 驻 电动 汽车 减少 的 CO, 的 预测 排放 量 。 

由 方 能 车 主 排名 功能 : 全 球 的 日 产 聆 风电 动 汽车 的 车 主 可 以 通过 耗 电量 、 萄 
驶 距离 、 再 生 制 动能 量 回收 等 指标 的 比较 ， 列 出 节能 车 主 排名 。 

(5) 路 径 规 划 功 能 : 根据 电动 汽车 的 续 驶 里 程 和 附近 的 元 电 站 位 置 , 建立 一 个 
出 行路 线 计划 。 
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在 征求 聆 风 电动 汽车 车 主 同意 后 ， 日 产 CARWINGS 数据 中 心 会 保存 全 球 车 
主 们 的 驾驶 、 充 电 和 耗 电量 等 历史 数据 。 分 析 这 些 数据 ， 可 以 计算 出 驾驶 电动 汽 
车 减少 了 多 少 CO,; 排放 量 ， 使 用 了 多 少 清洁 能 源 。 日 产 ICT 项 目 也 是 横 演 市 智 巧 
城市 项 目的 一 部 分 ， 它 为 建立 可 持续 的 零 排 放 社会 做 出 了 页 献 。 
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企业 里 的 数据 量 非 名 庞大 ， 而 其 中 真正 有 价值 的 信息 却 不 多 ， 上 所 以 人 们 最 天 
心 的 问题 就 是 如 何 应 用 这 些 大 数据 ， 从 而 挖掘 出 它们 的 潜在 价值 ， 产 生 应 有 的 大 
数据 效 荔 。 在 获得 大 量 数 据 后 ， 如 果 不 对 收集 到 的 数据 进行 处 理 ， 则 不 仅仅 会 影 
啊 到 数据 挖掘 的 效率 ， 还 会 影响 挖掘 的 结果 。 因 此 对 大 数据 进行 应 用 之 前 ， 必 须 
要 对 数据 本 号 做 一 定 的 处 理 ， 使 之 变 成 可 被 利用 的 数据 形式 。 在 对 数据 进行 过 处 
理 后 ， 我 们 就 需要 利用 这 些 数据 挖掘 出 有 用 的 信息 。 在 挖掘 的 过 程 中 出 现 了 许多 
冬 据 探 索 分 析 方 法 ， 可 以 根据 目 己 的 需求 用 不 同 的 方法 得 到 不 同 的 信息 。 挖 掘 的 
结果 可 能 不 具有 直观 性 ， 需 要 借助 一 些 工具 进行 可 视 化 展示 ， 这 样 才 会 让 我 们 控 
掘 的 信息 更 加 具有 交互 性 、 直 观 性 ， 使 人 们 对 结 末 的 理解 更 加 透彻 。 

新 能 源 汽车 中 可 挖掘 的 有 价值 信息 量 也 十 分 庞大 。 例 如 ， 了 解 踏板 的 工作 状 
态 可 以 对 敬 驶 员 的 驾驶 行为 进行 分 析 ， 了 解 动 力 电池 中 单 体 电池 的 电压 可 以 进行 
电池 故障 的 诊断 ， 了 解 动力 电池 的 电量 可 以 对 新 能 产 汽车 进行 能 耗 分 析 等 。 大 数 
所在 新 能 源 汽车 上 的 应 用 可 以 为 该 产业 创造 大 量 的 价值 。 

下 和 面 通过 数据 采集 、 数 据 预 处 理 、 数 据 和 存储、 数据 探 票 与 分 析 和 数据 可 视 化 
五 个 步骤 来 介绍 大 数据 的 应 用 流程 ， 并 且 结 合 新 能 源 汽 车 数据 平台 介绍 新 能 源 汽 
车 大 数据 应 用 的 流程 。 






































3.1.1 ”数据 采集 方法 


数据 采集 是 大 数据 应 用 流程 中 的 第 一 个 坏 市 ， 它 通过 RFID 射频 、 传 感 右 、 
社交 网 络 、 移 动 互联 网 等 方式 获得 各 种 类 型 的 结构 化 、 半 结构 化 及 非 结 构 化 的 海 
量 数据 。 因 此 可 能 有 成 二 上 万 的 用 户 同 时 进行 访问 和 操作 (并 发 工作 )， 所 以 必须 
采用 专门 针对 大 数据 的 采集 方法 ， 主 要 包括 以 下 三 种 : 
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1. 系统 日 志 采 集 方法 

许多 公司 的 业务 平台 每 天 都 会 产生 大 量 的 日 志 数 据 。 日 志 收 集 系 统 的 任务 就 
是 收集 业务 日 志 数 据 供 离线 和 在 线 的 分 析 系 统 使 用 。 高 可 用 性 、 可 和 对 性 、 可 扩展 
性 是 日 志 收 集 系统 所 具有 的 基本 特征 。 目 前 常用 的 开源 日 志 收 集 系 统 有 Flume、 
Scribe 等 。Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 车 的 、 分 布 式 的 海量 日 
志 采 集 、 聚 合 和 传输 系统 ， 目 前 是 Apache 的 一 个 子 项 目 。Scribe 是 Facebook 开 
源 日 志 收 集 系 统 ， 它 为 日 志 的 分 布 式 收集 、 统 一 处 理 提供 一 个 可 扩展 的 、 高 容错 
的 解决 方案 。 

2. 网 络 数据 采集 方法 

网 络 数 据 采 集 是 指 通 过 网 络 仆 虫 或 网 站 公开 API 等 方式 从 网 站 上 获取 数据 信 
恩 的 过 程 。 这 样 可 将 非 结 构 化 数据 、 半 结构 化 数据 从 网 页 中 提取 出 来 ， 并 以 结构 
化 的 方式 将 其 存储 为 统一 的 本 地 数据 文件 。 它 文 持 图 片 、 首 频 、 视 频 等 文件 的 采 
集 ， 且 附件 与 正文 可 自动 关联 。 对 于 网 络 流量 的 采集 ， 则 可 使 用 DPI 或 DFI 等 带 
宽 管 理 技术 进行 处 理 。 

3. 其 他 数据 采集 方法 

对 于 企业 生产 经 营 数据 或 科学 研究 数据 等 保密 性 要 求 较 高 的 数据 ， 可 以 通过 
与 企业 或 研究 机 构 合 作 ， 使 用 特定 系统 窗口 等 相关 方式 采集 数据 。 


3.1.2 ”新 能 源 汽车 数据 采集 


1. 新 能 源 汽车 数据 平台 三 级 结构 

目前 ， 新 能 源 汽车 的 数据 平台 主要 有 企业 监测 平台 、 地 方 监测 平台 以 和 国家 
监测 平台 三 类 。 这 三 类 平台 形成 了 数据 平台 的 三 级 架构 ， 如 图 3-1 所 示 。 新 能 源 
汽车 的 运行 数据 会 实时 传输 到 企业 监测 平台 ， 企 业 通过 企业 监测 平台 对 本 企业 生 
产 的 新 能 源 汽车 进行 安全 管理 、 预 报警 和 故障 处 理 ， 同 时 企业 平台 要 将 公共 领域 
的 新 能 源 车 辆 数据 实时 转发 给 地 方 监 测 
平台 并 进行 统计 信息 和 故障 处 理 的 上 报 。 
地 方 监测 平台 通过 监测 新 能 源 车 辆 的 运 
行 实现 新 能 源 车 辆 的 信息 统计 ， 通 过 车 辆 
故障 的 回溯 实现 对 新 能 源 汽车 质量 的 监 [TOO 
管 。 地 方 监测 平台 也 要 将 车 辆 运行 数据 实 。 maf。 人、 二 所 守 时 轩 





























































国家 监管 平台 
数据 实时 传输 、 按 需 传输 
统计 信息 上 报 、 故 障 处 理 上 报 
数据 实时 传输 ， 

统计 信息 上 报 ， 

故障 信息 上 报 




















时 上 传 到 国家 监管 sp 人 台 ， 并 进行 统计 信 息 故障 回溯 一 质量 监管 故障 处 理 上 报 
六 一 自 人 四 国 ES 
和 故障 信息 的 上 报 | 在 企业 地 方 一 国家 新 能 源 汽 侍 } i 
这 一 数据 上 传 通路 之 外 ,还 保留 了 企业 平 RN 
安全 管理 〈 预 报警 
台 直 接 癌 国家 平台 上 传 的 通路 。 企 业 监 测 一 故障 处 理 








平台 要 根据 需要 将 车 辆 运行 数据 实时 传 | 
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输 到 国家 平台 并 进行 统计 信息 和 故障 处 理 信息 的 上 报 。 

2. 静态 信息 采集 

静态 信息 指 的 是 没有 与 服务 器 进行 交互 的 数据 。 和 车辆 外 部 的 静态 信息 主要 包 
括 充电 桩 的 使 用 信息 、 路 网 信息 、 气 象 信息 等 。 这 些 静 态 信息 能 够 对 分 析 车 辆 的 
行驶 状况 、 安 全 管理 和 故障 回溯 提供 有 效 的 依据 。 车 辆 的 静态 信息 包括 和 车辆 的 相 
关 参 数 、 车 辆 公告 信息 、 车 辆 的 销售 情况 以 及 用 户 对 车 辆 的 评价 情况 等 。 这 些 信 
息 也 是 进行 大 数据 分 析 所 必 备 的 。 

车 辆 静态 信息 往往 都 是 相应 网 站 上 的 公开 信息 。 比 如 车 辆 的 相关 参数 ， 可 以 
通过 生产 企业 的 网 站 上 找到 对 该 种 车 型 的 介绍 ， 也 可 以 在 销售 网 站 上 找到 该 车 型 
的 参数 。 车 辆 公告 信息 可 以 在 中 国 机 动车 网 等 相关 网 站 上 获取 。 车 辆 销售 情况 和 
用 户 反 馈 可 以 在 车 辆 销售 网 站 以 及 相关 社交 论坛 上 查询 。 同 时 也 可 利用 网 络 爬 虫 
程序 定期 从 相应 的 网 站 上 扑 取 车 辆 的 静态 信息 、 车 辆 公告 信息 以 及 销售 反馈 信息 
等 ， 并 存 入 数据 平台 中 。 

3. 动态 信息 采集 

车 辆 动态 信息 采集 是 指 通过 布置 在 车 辆 上 的 传感器 获取 车 辆 的 动态 信息 ， 主 
要 由 车 载 终端 通过 无 线 方式 上 传 到 数据 平台 。 新 能 源 汽车 数据 平台 车 辆 动态 信息 
采集 步骤 如 下 : 

(1) 连接 建立 

车 载 终端 向 远程 服务 与 管理 平台 发 送 通信 连接 请 求 , 当 通 信 链 路 连接 建立 后 ， 
车 载 终端 应 自动 向 远程 服务 与 管理 平台 发 送 登入 信息 身份 识别 ， 远 程 服 务 与 管理 
平台 应 对 接收 到 的 数据 进行 校 验 。 

(2) 信息 传输 

当 车 辆 终端 登入 成 功 后 ， 应 按 一 定时 间 周 期 向 远程 服务 与 管理 平台 上 报 电 动 
汽车 运行 、 充 电 、 事 故 报警 或 断 电 后 3min 内 的 实时 信息 。 

车 载 终端 通过 车 辆 CAN 总 线 获取 的 数据 整合 后 ， 通 过 GPRS 无 线 网 络 发 送 
到 远程 服务 与 管理 平台 。 和 车载 终端 向 远程 服务 与 管理 平台 上 报信 息 时 ， 应 根据 实 
际 情 况 对 驱动 电机 数据 、 整 车 数据 、 燃 料 电池 数据 、 发 动机 数据 、 车 辆 位 置 数据 、 
极 值 数 据 、 报 警 数 据 、 可 充电 储 能 装置 电压 数据 、 可 充电 储 能 装置 温度 数据 等 新 
能 源 汽 车 相关 数据 进行 拼装 后 上 报 。 

车 载 终端 向 服务 端 平台 上 报信 息 的 时 间 周 期 可 以 调整 ， 车 辆 信息 上 报 的 时 间 
周期 最 大 不 应 超过 30s。 

(3) 连接 维持 

在 信息 传输 过 程 中 , 车 载 终端 应 向 远程 服务 与 管理 平台 发 送 周 期 性 心跳 信息 ， 
远程 服务 与 管理 平台 应 对 车 载 终端 反馈 成 功 应 答 。 心 跳 发 送 周 期 可 以 调整 。 
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(4) 信息 补 发 

当 数 据 通信 链 路 异 和 营 时 ， 车 载 终端 应 将 实时 上 报 数据 进行 本 地 储存 。 在 数据 
通信 和 链 路 恢复 正常 后 , 在 发 送 实时 上 报 数据 的 空闲 时 间 完 成 补 发 储存 的 上 报 数据 。 

因为 新 能 源 汽 车 不 仅仅 只 涉及 车 辆 一 个 产业 ， 与 其 相关 的 还 包括 气象 、 路 网 
等 相关 产业 ， 只 有 动态 信息 与 静态 信息 的 相互 结合 ， 才 能 从 大 数据 里 挖掘 出 洪 在 
的 、 a 

4. 新 能 源 汽车 大 数据 平台 数据 采集 过 程 

新 能 源 汽车 大 数据 处 理 分 为 数据 采集 、 数 据 存储 与 管理 、 数 据 分 析 与 挖掘 、 
数据 展现 与 应 用 四 部 分 ， 如 图 3-2 所 示 。 首 先 ， 新 能 源 汽车 大 数据 平台 收集 车 辆 


新 能 源 汽车 大 数据 创新 生态 平台 1 物流 意向 客户 、 保 险 意 
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数据 资源 方 : 厂商 授权 数据 、 充 电 联盟 数 据 、 气 象 数据 、 交 通 数据 
总 交通 二 上 自动 加 惹 拆 解 ; 、 an [产品 
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运行 数据 、 和 气象 数据 、 路 网 数据 、 充 电 桩 数据 等 各 方面 的 数据 并 进行 汇总 ， 这 些 
数据 中 往往 会 有 缺失 值 或 异 第 值 , 采集 的 数据 需要 通过 预 处 理 环节 提高 数据 质量 ， 
然后 通过 高 并 发 接收 系统 进入 平台 ; 进入 平台 后 ， 平 台 会 对 这 些 数据 按照 数据 种 
类 分 别 存 入 storm 集群 、redis 和 集群、hdfs 集群 、Hbase 集群 、 关 系数 据 集群 中 进 
行 管理 ， 新 能 源 汽 车 大 数据 平台 通过 应 用 不 同 种 类 的 计算 组 件 进行 充电 统计 、 下 
驶 行为 、 行 驶 统计 等 分 析 ; 并 通过 HS 展示 模块 、app 定制 化 模块 、demo 展示 模 
块 进行 可 视 化 展示 。 平 台 还 可 以 提供 许多 基础 功能 和 扩展 应 用 功能 ， 包 括 二 手 车 
残 值 评估 方 案 、 车 险 创新 解决 方案 、 上 自动 驾驶 解决 方案 、 乔 总 物流 解决 方案 等 。 


3.1.3 小结 


数据 采集 是 数据 应 用 流程 中 的 第 一 步 ， 本 节 通 过 介绍 几 种 数据 采集 方法 引出 
新 能 源 汽车 大 数据 平台 的 数据 采集 方法 。 新 能 源 汽车 数据 的 采集 主要 依托 三 级 平 
台 染 构 ， 退 过 和 车载 终 闹 与 平台 、 平 台 与 平台 之 则 的 数据 传输 ， 采 集 不 同 种 类 和 车辆 
的 动态 数据 、 静 态 数据 和 相关 部 件数 据 。 利 用 这 些 数据 能 够 进一步 对 车 辆 的 行驶 
状态 、 能 耗 分 析 、 敬 驶 行为 等 有 价值 的 信息 进行 分 析 。 
































数据 预 处 理 


3.2.1 ”数据 预 处 理 目 标 


数据 挖掘 的 数据 基本 都 来 自生 产 、 生 活 、 商 业 中 的 实际 数据 ， 在 现实 世界 中 ， 
由 于 各 种 原因 导致 数据 总 是 有 许多 问题 。 在 实际 情况 下 ， 我 们 采集 到 的 数据 往往 
存在 缺失 、 错 误 或 含有 了 噪声、 不 一 致 等 问题 ， 也 束 是 说 数据 质量 的 三 个 要 了 又: 准 
确 性 、 完 整 性 和 一 致 性 都 有 欠缺。 不 正确 、 不 完整 和 不 一 致 特性 是 现实 世界 大 型 
数据 库 和 数据 仓库 的 共同 特点 。 导 致 不 正确 的 数据 〈 即 具有 不 正确 的 属性 值 ) 可 
能 有 多 种 原因 : 收集 数据 的 设备 可 能 出 故障 ; 输入 错误 数据 ; 当 用 户 不 锅 望 提交 
个 人 信息 时 ， 可 能 故意 同 强 制 输入 字段 输入 不 正确 的 值 〈 例 如 ， 为 生日 选择 默认 
值 “1 月 1 日 ”)， 这 称 为 补 掩 新 的 缺失 数据 。 错 误 也 可 能 在 数据 传输 中 出 现 ， 这 
些 可 能 是 由 于 技术 的 限制 。 不 正确 的 数据 也 可 能 是 由 命名 约定 或 所 用 的 数据 代码 
不 一 9 致 ， 或 输入 字段 《如 日 期 的 格式 不 一 致 而 导致 的 。 

影响 数据 质量 的 另外 两 个 因素 是 可 信 性 和 可 解释 性 。 可 信 性 (Believability) 
反映 有 多 少数 据 是 用 户 信赖 的 ， 而 可 解释 性 〈JInterpretability) 则 反映 数据 是 否 容 
易 理 解 。 假 设 在 某 一 时 刻 数 据 库 有 一 些 错误 ， 之 后 都 被 更 正 。 然 而 ， 过 去 的 错误 
已 经 对 相关 部 门人 造成 了 影响 ， 因 此 他 们 不 再 相信 该 数据 ， 即 数据 的 可 信 性 下 降 。 
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此 外 ， 数 据 还 使 用 了 许多 编码 方式 ， 量 化 分 析 人 员 有 时 并 不 知道 如 何 解 释 它 们 。 
即便 该 数据 库 现在 是 正确 的 、 完 整 的 、 一 致 的 、 及 时 的 ， 但 是 由 于 很 差 的 可 信 性 
和 可 解释 性 ， 这 时 数据 质量 仍然 可 能 被 认为 很 低 。 

总 之 ， 现 实 世 界 的 数据 质量 总 是 很 难 让 人 满意 ， 一 般 是 质量 较 差 的 ， 原 因 也 
有 很 多 。 但 我 们 并 不 需要 过 多 关注 数据 质量 差 的 原因 ， 只 需 关 注 如 何 让 数据 质量 
变 得 更 好 ， 也 融 是 说 如 何 对 数据 进行 预 处 理 ， 以 提高 数据 质量 ， 满 足 数 据 挖 掘 的 
需要 才 是 我 们 的 主要 工作 。 


3.2.2 ”数据 预 处 理 方法 


本 节 我 们 考察 数据 预 处 理 的 主要 方法 ， 即 数据 清理 、 数 据 集成 、 数 据 归 约 、 
数据 变换 与 数据 离散 化 和 数据 降 维 。 

1. 数据 清理 

现实 世界 的 数据 一 般 是 不 完整 的 、 有 噪声 的 和 不 一 致 的 。 数 据 清 理 例 程 试 图 
填充 缺失 的 值 、 光 滑 噪 声 并 识别 离 群 点 。 

(1) 缺失 值 

在 分 析 销 售 和 顾客 数据 时 ， 发 现 许多 元 组 的 一 些 属性 (如 顾客 的 income) 没 
有 记录 值 ， 怎 样 才能 为 该 属性 填 上 缺失 的 值 ? 我 们 看 看 下 面 的 方法 。 

(DD 忽略 元 组 : 当 缺 少 类 标 写 时 通常 这 样 做 , 假定 挖掘 任务 涉及 分 类 。 际 非 元 
组 有 多 个 属性 缺失 值 ， 否 则 该 方法 不 是 很 有 效 。 当 每 个 属性 缺失 值 的 百分比 变化 
很 大 时 ， 它 的 性 能 特别 甜 。 采 用 忽略 元 组 的 方法 ， 则 不 能 使 用 该 元 组 的 剩余 属性 
值 ， 这 些 数据 可 能 对 当前 的 任务 是 有 用 的 。 

@ 人 工 填 写 缺 失 值 : 一 般 来 说 ， 讼 方法 很 费时 ， 并 且 当 数据 集 很 大 、 缺 失 很 
多 值 时 ， 该 方法 可 能 行 不 通 。 

(3) 使 用 一 个 全 局 常量 填充 缺失 值 : 将 缺失 的 属性 值 用 同一 个 背 量 《如 
Unknown 或 o) 蔡 换 。 如 果 缺 失 的 值 都 用 如 “Unknown” 葵 换 ， 则 挖掘 程序 可 能 
误 以 为 它们 形成 了 一 个 有 趣 的 概念 ， 因 为 它们 都 共有 相同 的 值 一 一 “Unknown ”。 
因此 ， 尽 管 该 方法 简单 ， 但 是 并 不 十 分 可 靠 。 

(4) 使 用 属性 的 中 心 度 量 〈 如 均值 或 中 位 数 ) 填充 缺失 值 : 中 心 度 量 表示 数据 
分 布 的 “中 间 ” 值 。 对 于 正常 的 (对 称 的 数据 分 布 而 言 ， 可 以 使 用 均值 ， 而 倾 
余数 据 分 布 应 该 使 用 中 位 数 。 例 如, 假定 菜 公 司 的 顾客 收入 的 数据 分 布 是 对 称 的 ， 
并 且 平 均 收 入 为 56 000 美元 ， 则 使 用 该 值 蔡 换 income 中 的 缺失 值 。 

(5) 使 用 与 给 定 元 组 属 同一 类 的 所 有 样本 的 属性 均值 或 中 位 数 。 例 如， 如 果 将 
顾客 按 credit risk 分 类 ， 则 用 具有 相同 信用 风险 的 顾客 的 平均 收入 蔡 换 income 中 
的 缺失 值 。 如 采 给 定 类 的 数据 分 布 是 倾 料 的 ， 则 中 位 数 是 更 好 的 选择 。 

(@) 使 用 最 可 能 的 值 填充 缺失 值 : 可 以 使 用 回归 或 基于 推理 的 贝 叶 斯 形式 化 方 
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法 的 工具 或 决策 树 归纳 确定 。 例 如 ， 利 用 数据 集中 其 他 顾客 的 属性 ， 可 以 构造 一 
棵 决策 树 ， 来 预测 income 的 缺失 值 。 

方法 二 一 方法 (9 会 使 数据 有 偶 ， 填 入 的 值 可 能 不 正确 。 与 其 他 方法 相 比 ， 方 
法 (6 是 最 流行 的 方法 , 它 使 用 已 有 数据 的 大 部 分 信息 来 预测 缺失 值 。. 在 估计 income 
的 缺失 值 时 ， 通 过 考虑 其 他 属性 的 值 , 有 更 大 的 机 会 保持 income 和 其 他 属性 之 间 
的 联系 。 

重要 的 是 要 注意 ， 在 菜 些 情况 下 ， 缺 失信 并 不 意味 数据 有 错误 。 例 如 ， 在 申 
请 信用 卡 时 ， 可 能 要 求 申 请 人 提供 苔 驶 证 号， 没有 驾驶 证 的 申请 者 自然 地 不 会 填 
写 该 字段 。 表 格 应 当 人 允许 填 表 人 使 用 诸如 “不 适用 ”等 值 ， 软 件 例 程 也 可 以 用 来 
发 现 其 他 空 值 (如 “不 知道 ^“? ”或 “无 ”)。 在 理想 情况 下 ， 每 个 属性 都 应 当 
有 一 个 或 多 个 关于 空 值 条 件 的 规则 。 这 些 规则 可 以 说 明 是 否 允 许 空 值 ， 或 者 说 
明 这 样 的 空 值 应当 如 何 处 理 或 转换 。 如 条 在 业务 处 理 的 稍 后 步骤 提供 空 值 ， 字 
段 也 可 能 故意 留 下 衬 折 。 因 此 ， 尽 管 在 得 到 数据 后 ， 我 们 可 以 尽 我 们 所 能 来 清 
理 数 据 , 但 好 的 数据 库 和 数据 输入 设计 将 有 助 于 在 第 一 现场 把 缺失 值 或 错误 的 数 
量 降 至 最 低 。 

(2) 噪声 数据 

“什么 是 噪声 数据 ” ”噪声 noise) 数据 是 被 测量 的 变量 的 随机 误差 。 我 们 
看 到 了 如 何 使 用 基本 统计 描述 技术 如 盒 图 和 散 点 图 ) 和 数据 可 视 化 方法 来 识别 
可 能 代表 噪声 的 离 群 点 。 我 们 如 何 才 能 “光滑 ”数据 、 去 抒 噪 声 呢 ? 下 面 介 绍 几 
种 数据 光 靖 技术 。 














Q@ 分 箱 (binning): 分 箱 方法 通过 考察 数据 的 “ 近 划分 为 (等 频 的 条 
邻 ”( 即 周围 的 值 ) 来 光滑 有 序数 据 值 。 这 些 有 序 的 值 箱 2: 21, 21, 24 


箱 3: 25，28，34 


被 分 布 到 一 些 “ 桶 ”或 箱 中 。 分 箱 方法 只 考察 近邻 的 


全 > 人 各 己 、 办 二 EAI > 箱 的 直 光 ， 
值 ， 因 此 它 只 能 进行 局 部 光滑 。 图 3-3 表示 了 一 些 分 Me 
pa 箱 2: 22，22，22 
箱 技 术 。 箱 3: 29，29，29 
按 price 排序 后 的 数据 : 4，8，15，21，21，24， pe 
25，29，34 箱 !: 4，4，15 


箱 2: 21，21，24 


在 该 例 中 ，price 数据 首先 排序 并 被 划分 到 大 小 为 箱 3: 25，25，34 
3 的 等 频 的 箱 中 ( 即 每 个 箱包 含 3 个 值 )。 对 于 用 箱 均 
值 光 滑 ， 箱 中 每 一 个 值 都 被 蔡 换 为 箱 中 的 均值 。 例如 ， 图 3-3 数据 光 涡 的 分 钼 万 式 
箱 1 中 的 值 4、8 和 15 的 均值 是 9。 因 此， 该 箱 中 的 每 一 个 值 都 被 替换 为 9。 

类 似 地 ， 可 以 使 用 各 箱 中 位 数 光滑 。 此 时 ， 箱 中 的 每 一 个 值 都 被 蔡 换 为 该 箱 
的 中 位 数 。 对 于 用 箱 边界 光滑 ， 给 定 箱 中 的 最 大 值 和 最 小 值 同 样 被 视 为 箱 边界 ， 
而 箱 中 的 每 一 个 值 都 被 替换 为 最 近 的 边界 值 。 一 般 而 言 ， 宽 度 越 大 ， 光 滑 效 果 越 
明显 。 箱 也 可 以 是 等 宽 的 ， 其 中 每 个 箱 值 的 区 间 范 围 是 常量 。 分 箱 也 可 以 作为 一 
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种 离散 化 技术 使 用 。 

(2 回归 (regression): 也 可 以 用 一 个 函数 拟 合 数据 来 光滑 数据 。 这 种 技术 称 
为 回归 。 线 性 回归 涉及 找 出 拟 合 两 个 属性 〈 或 变量 ) 的 “最 佳 ” 直 线 ， 使 得 可 以 
用 一 个 属性 来 预测 另 一 个 。 多 元 线性 回归 是 线性 回归 的 扩充 ， 其 中 涉及 的 属性 多 
于 两 个 ， 并 且 数 据 拟 合 到 一 个 多 维 曲面 。 

(3) 离 群 点 分 析 〈outlier analysis): 可 以 通过 如 聚 类 等 方法 来 检测 离 群 点 。 聚 
类 将 类 似 的 值 聚 成 群 或 “ 禾 ”。 和 直观 地 ， 洲 在 秘 集 合 之 外 的 值 被 视 为 离 群 点 。 

许多 数据 光滑 的 方法 也 用 于 数据 离散 化 (一 种 数据 变换 形式 ) 和 数据 归 约 。 
例如 ， 上 面 介绍 的 分 箱 技 术 减 少 了 每 个 属性 的 不 同 值 的 数量 。 对 于 基于 逻辑 的 数 
据 挖 掘 方法 〈 如 决策 树 归 纳 )， 它 反复 地 在 排序 后 的 数据 上 进行 比较 ， 这 充当 了 一 
种 形式 的 数据 归 约 。 

2. 数据 集成 

数据 挖掘 经 常 需要 数据 集成 一 一 合并 来 目 多 个 数据 存储 的 数据 。 合 理 的 集成 
有 助 于 减少 结果 数据 集 的 了 见 余 和 不 一 致 。 这 有 助 于 提高 其 后 挖掘 过 程 的 准确 性 和 
速度 。 

(1) 实体 识别 问题 

数据 分 析 任 务 多 半 涉 及 数据 集成 。 数 据 集成 将 多 个 数据 源 中 的 数据 合并 ， 存 
放 在 一 个 一 致 的 数据 存储 中 ， 如 存放 在 数据 仓库 中 。 这 些 数 据 源 可 能 包括 多 个 数 
据 库 、 数 据 立 方 体 或 一 般 文件 。 

在 数据 集成 时 ， 有 许多 问题 需要 考虑 。 来 目 多 个 信息 源 的 现实 世界 的 等 价 实 
体 如 何 才能 “匹配 ”这 涉及 实体 识别 问题 。 例 如， 数据 分 析 者 或 计算 机 如 何 才能 
确信 一 个 数据 库 中 的 customer id 与 男 一 个 数据 库 中 的 cust number 指 的 属性 是 否 
相同 。 每 个 属性 的 元 数据 包括 名 字 、 人 含义 、 数 据 类 型 和 属性 的 允许 取 值 范 围 ， 以 
及 处 理 空 白 、 零 或 NULL 值 的 空 值 规则 。 这 样 的 元 数据 可 以 用 来 帮助 避免 模式 集 
成 的 错误 。 元 数据 还 可 以 用 来 帮助 变换 数据 (例如 ，pay_type 的 数据 编码 在 一 个 
数据 库 中 可 以 是 “H” 和 “S”， 而 在 男 一 个 数据 库 中 是 1 和 2)。 因 此 ， 这 一 步 也 
与 前 面 介绍 的 数据 清理 有 关 。 

在 集成 期 间 ， 当 一 个 数据 库 的 属性 与 另 一 个 数据 库 的 属性 匹配 时 ， 必 须 特 别 
注意 数据 的 结构 。 这 由 在 确保 源 系 统 中 的 函数 依赖 和 参照 约束 与 目标 系统 中 的 
匹配 。 例 如 ， 在 一 个 系统 中 ，discount 可 能 用 于 订单 ， 而 在 男 一 个 系统 中 ， 它 用 
于 订单 内 的 商品 。 如 果 在 集成 之 前 未 发 现 ， 则 目标 系统 中 的 商品 可 能 被 不 正确 地 
打折 。 

(2) 匈 余 和 相关 分 析 

几 余 是 数据 集成 的 另 一 个 重要 问题 。 一 个 属性 《如 年 收入 ) 如 果 能 由 另 一 个 
或 另 一 组 属性 “导出 ” 则 这 个 属性 可 能 是 见 余 的 。 属性 或 维 命名 的 不 一 致 也 可 能 
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导致 结果 数据 集中 的 见 余 。 

有 些 元 余 可 以 被 相关 分 析 检 测 到 。 给 定 两 个 属性 ， 这 种 分 析 可 以 根据 可 用 的 
数据 , 度量 一 个 属性 能 在 多 大 程度 上 绰 涵 另 一 个 。 对 于 标 称 数据 , 我 们 使 用 x”( 卡 
方 ) 检验 。 对 于 数值 属性 ， 我 们 使 用 相关 系数 (correlation coefficient) 和 协 方差 
Ccovariance)， 它 们 都 能 评估 一 个 属性 的 值 如 何 随 另 一 个 变化 。 

对 于 标 称 数据 ， 两 个 属性 A 和 B 之 则 的 相关 联系 可 以 通过 rx” 〈 卡 方 ) 检验 
发 现 。 假 设 A 有 5c 个 不 同 值 a ，a,, …，a,，B 有 7r 个 不 同 值 5b,，b,, …，b.。 用 
A 和 B 描述 的 数据 元 组 可 以 用 一 个 相依 表 显 示 ， 其 中 A 的 c 个 值 构成 列 ，B 的 
r 个 值 构 成 行 。 令 (4,B,) 表示 属性 A 取 值 a ，B 取 值 5b 的 联合 事件 ， 即 
( 4=a,,B=b,)。 每 个 可 能 的 (4,B, ) 联合 事件 都 在 表 中 有 自己 的 单元 。X 值 ( 又 
称 Pearson Xx" 统计 量 ) 可 以 用 下 式 计算 : 


c 7 a 2 
有 (3-1) 
Cy 


i=] j=] 

式 中 ，o 是 联合 事件 (4,B,) 的 观测 频 度 ( 即 实际 计数 ); @ 是 (4,B,) 的 期 户 频 度 。 
e 可 以 用 下 式 计算 ; 

_ Counti(A= a,)xcount(B=0D,) 

j= 一 一 一 一 一 一 一 一 


(3—2) 
n 


式 中 ，7 是 数据 元 组 的 个 数 ; count(4=a,) 是 A 上 具有 值 为 a 的 元 组 个 数 ; 
count(B=0,) 是 B 上 上 其 有 值 为 b, 的 元 组 个 数 。 式 (3-1) 中 的 和 在 所 有 rxc 个 单元 
上 计算 ,注意 , 对 XY 值 页 献 最 大 的 单元 是 其 实际 计数 与 期 望 计数 差 寞 很 大 的 单元 。 

XY 统计 检验 假设 A 和 B 是 独立 的 。 检 验 基 于 显著 水 平 ， 具 有 自由 度 (x-1) x 
Cc-1)。 我 们 将 用 【 例 3.1】 解释 该 统计 量 的 使 用 。 如 采 可 以 拒绝 该 假设 ， 则 我 们 
说 A 和 B 是 统计 相关 的 。 

【 例 3.1】 使 用 入 的 标 称 属性 的 相关 分 析 。 假 设 调理 了 1500 个 人 ， 记 录 了 每 
个 人 的 性 别 。 每 个 人 对 他 们 喜爱 的 阅读 材料 类 型 是 否 是 小 说 进行 投票 。 这 样 ， 我 
们 有 两 个 属性 gender 和 preferred reading。 每 种 可 能 的 联合 事件 的 观测 频率 (或 
计数 ) 汇总 在 表 3-1 所 显示 的 相依 表 中 ， 其 中 括号 中 的 数 是 期 望 频 雍 。 期 望 频 率 
根据 两 个 属性 的 数据 分 布 ， 用 式 (3-2) 计算 。 


表 3-1 【 例 3.1】 的 数据 2x2 相依 表 


| 甲 入 、 
> 二 < 计 
小 “说 250 (90) 200 (360) 450 


非 小 说 50 (210) 1000 (840) 1050 
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使 用 式 (3-2)， 我们 可 以 验证 每 个 单元 的 期 望 频率 。 例 如 ， 单 元 ( 男 ， 小说) 

的 期 望 频 率 是 ， - count( 男 )xcount( 小 说 ) _ 300x450 
n 1300 

期 望 频率 的 和 必须 等 于 该 行 忌 观 测 频率 ， 并 且 任 意 列 的 期 望 频率 的 和 也 必须 等 于 
该 列 的 总 观测 频率 。 

根据 计算 入 的 式 〈3-1) 可 以 得 到 : 

-CC50-907 ,GO0-210)7 , 1000—840) 
90 210 840 

对 于 这 个 2x2 的 表 ， 自 由 度 为 (2-1)x(2-1)=1。 对 于 自由 度 1， 在 0.001 的 置 
言 水 平 下 ， 拒 绝 假 设 的 值 是 10.828( 取 上 自 X 分 布 上 百分点 表 ， 通常 可 以 在 任意 统 
计 学 教科 书 中 找到 )。 由 于 计算 的 值 大 于 该 值 ， 因 此 可 以 拒绝 gender 和 preferred 
reading 独立 的 假设 ， 并 断言 对 于 给 定 的 人 群 ， 这 两 个 属性 是 ( 强 ) 相关 的 。 

(3) 元 组 重复 

除了 检测 属性 间 的 元 余 外 ， 还 应 当 在 元 组 级 检测 重复 〈 例 如 ， 对 于 给 定 的 唯 
一 数据 实体 ， 存 在 两 个 或 多 个 相同 的 元 组 )。 去 规范 化 表 (denormalized table) 的 
使 用 这样 做 通常 是 通过 避免 连接 来 改善 性 能 ) 是 数据 元 余 的 另 一 个 来 源 。 不 一 
致 通 间 出 现在 各 种 不 同 的 副本 之 间 ， 由 于 不 正确 的 数据 输入 ， 或 者 由 于 更 新 了 数 
据 的 某 些 出 现 地 点 ， 但 未 更 新 所 有 的 出 现 地 点 。 例 如 ， 如 果 订 单数 据 库 包含 订货 
人 的 姓名 和 地 址 属性 ， 而 不 是 这 些 信 息 在 订 贷 人 数据 库 中 的 码 ， 则 差异 就 可 能 
现 ， 如 同一 订 贷 人 的 名 字 可 能 以 不 同 的 地 址 出 现在 订单 数据 库 中 。 

(4) 数据 值 冲突 的 检测 与 处 理 

数据 集成 还 涉及 数据 值 冲 突 的 检测 与 处 理 。 例如 ， 对 于 现实 世界 的 同一 实体 ， 
来 自 不 同 数据 源 的 属性 值 可 能 不 同 。 这 可 能 是 因为 表示 、 尺 撒 或 编码 不 同 。 例 如 ， 
重量 属性 可 能 在 一 个 系统 中 以 公制 单位 存放 ， 而 在 另 一 个 系统 中 以 英制 单位 存放 。 
对 于 连锁 旅馆 ， 不 同城 市 的 房价 不 仅 可 能 涉及 不 同 的 货币 ， 而 且 可 能 涉及 不 同 的 服 
务 〈 如 免费 早餐 f) 和 税收 。 例 如 ， 不 同学 校 交 换 信 息 时 ， 每 个 学 校 可 能 都 有 上 自己 的 
课程 计划 和 评分 方案。 一 所 大 学 可 能 米 取 学 季 制 , 开设 31 数据 库 系 统 课程 , 用 A~ 
F 评分 ; 而 男 一 所 大 学 可 能 采用 学 期 制 ， 开设 两 门 数 据 库 课 程 ， 用 1 一 10 评分 。 很 
难 在 这 两 所 大 学 之 间 制 定 精 确 的 课程 成 绩 变 换 规 则 ， 这 使 得 信息 交换 非常 困难 。 

属性 也 可 能 在 不 同 的 抽象 层 ， 其 中 属性 在 一 个 系统 中 记录 的 抽象 层 可 能 比 男 
一 个 系统 中 “相同 的 ”属性 低 。 例 如 ，total sales 在 一 个 数据 库 中 可 能 涉及 某 公 司 
的 一 个 分 店 ， 而 男 一 个 数据 库 中 相同 名 字 的 属性 可 能 表示 一 个 给 定 地 区 的 诸如 某 
公司 分 店 的 总 销售 量 。 

3. 数据 归 约 

假定 你 已 经 从 数据 仓库 选择 了 数据 用 于 分 析 ， 数 据 集 可 能 非常 大 ! 在 海量 数 


=90 。 注 意 ， 在 任意 行 ， 





=507.93 

































































99 


新 能 源 汽车 
大 数据 分 析 与 应 用 技术 





据 上 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 时 间 , 使 得 这 种 分 析 不 现实 或 不 可 行 。 

数据 归 约 〈data reduction) 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 ， 它 小 得 多 ， 
但 仍 接近 于 保持 原始 数据 的 完整 性 。 也 就 是 说 ， 在 归 约 后 的 数据 集 上 挖掘 将 更 有 
效 ， 仍 然 产生 相同 《或 几乎 相同 ) 的 分 析 结 果 。 下 面 我 们 将 概述 数据 归 约 的 策略 ， 
然后 进一步 考察 每 种 技术 。 

数据 归 约 策略 包括 维 归 约 、 数 量 归 约 和 数据 压缩 。 

CO 维 归 约 (dimensionality reduction ) 减少 所 考虑 的 随机 变量 或 属性 的 个 数 。 
维 归 约 方法 包括 小 波 变 换 和 主 成 分 分 析 , 它们 把 原 数 据 变 换 或 投影 到 较 小 的 空间 。 
属性 子 集 选 择 是 一 种 维 归 约 方 法 ， 其 中 不 相关 、 弱 相关 或 见 余 的 属性 或 维 被 检测 
和 删除 。 

@ 数量 归 约 (numerosity reduction ) 用 符 代 的 、 较 小 的 数据 表示 形式 蔡 换 原 
数据 ， 这 些 技术 可 以 是 参数 的 或 非 参数 的 。 对 于 参数 方法 而 言 ， 使 用 模型 估计 数 
据 ， 使 得 一 般 只 需要 和 存放 模型 参数 ， 而 不 是 实际 数据 ( 离 群 点 可 能 也 要 存放 )。 

(3) 数据 压缩 (data compression ) 使 用 变换 ， 以 便 得 到 原 数 据 的 归 约 或 “压缩 ” 
表示 。 如 有 果 原 数据 能 够 从 压缩 后 的 数据 重 构 而 不 损失 信息 ， 则 该 数据 归 约 称 为 无 
损 的 。 如 果 我 们 只 能 近似 重 构 原 数据 ， 则 该 数据 归 约 称 为 有 损 的 。 对 于 串 压 缩 ， 
有 一 些 无 损 压 缩 算 法 。 然 而 ， 它 们 一 般 只 允许 有 限 的 数据 操作 。 维 归 约 和 数量 归 
约 也 可 以 被 视 为 某 种 形式 的 数据 压缩 。 

有 许多 其 他 方法 来 组 织 数据 归 约 方法 。 花 费 在 数据 归 约 上 的 计算 时 间 不 应 超 
过 或 “抵消 ”在 归 约 后 的 数据 上 挖掘 所 市 省 的 时 间 。 

4. 数据 变换 与 数据 离散 化 

(1) 数据 变换 策略 概述 

在 数据 变换 中 ， 数 据 和 被 变换 或 统一 成 适合 于 挖掘 的 形式 。 数 据 变换 沫 略 包括 
如 下 几 种 : 

Q) 光滑 (smoothing): 去 挥 数据 中 的 噪声 。 这 类 技术 包括 分 箱 、 回 归 和 聚 类 ，。 

@ 属性 构造 (或 特征 构造 )， 可 以 由 给 定 的 属性 构造 新 的 属性 并 添加 到 属性 
集中 ， 以 帮助 挖掘 过 程 。 

(3) 聚集 : 对 数据 进行 汇总 或 肾 集 。 例如， 可 以 聚集 日 销售 数据 ， 计算 月 和 年 
销售 量 。 这 一 步 通 第 用 来 为 多 个 抽象 层 的 数据 分 析 构 造 数据 立方 体 。 

(4) 规范 化 : 把 属性 数据 按 比 例 缩 放 ， 使 之 沙 入 一 个 特定 的 小 区 间 ， 如 [上 -1， 
1」 或 [0.0，1.0]。 

(5) 离散 化 : 数值 属性 (如 年 龄 ) 的 原始 值 用 区 间 标 签 〈 例 如 ，0 一 10，11 一 
20 等 ) 或 概念 标签 (如 youth、adult、senior) 蔡 换 。 这 些 标签 可 以 递归 地 组 织 成 
更 高 层 概 念 , 导致 数值 属性 的 概念 分 层 。 图 3-4 显 示 了 属性 price 的 一 个 概念 分 层 。 
对 于 同一 个 属性 可 以 定义 多 个 概念 分 层 ， 以 适合 不 同 用 户 的 需要 。 
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($0 .$1000] 
($0 .$200] ($200 … 吊 400] ($400 … 吊 600] ($600 … 吊 800] ($800 … $1000] 


($01 ||($100I ($2001||¢$ 3001 ($4001 on 1 0 on ($9001 
- 100] 、 200] - 300] - 400] 、 500] | |$600] $ 700] $ 800] $ 900] $ 1000] 


图 3-4 属性 price 的 一 个 概念 分 层 ， 其 中 ($X…$Y」 表示 
从 $SX【〔 不 包括 到 $Y (包括 的 区 间 


(6) 由 标 称 数据 产生 概念 分 层 : 属性 ， 如 street， 可 以 泛 化 到 较 高 的 概念 层 ， 
如 city 或 country。 许 多 标 称 属性 的 概念 分 层 都 缠 伟 在 数据 库 的 模式 中 ， 可 以 在 模 
式 定义 级 目 动 定义 。 

离散 化 技术 可 以 根据 如 何 进 行 离散 化 加 以 分 类 ， 如 根据 是 否 使 用 类 信息 ， 或 
根据 离散 化 的 进行 方 回 〈( 即 自 顶 回 下 或 自 夺回 上 〉 来 分 类 。 如 果 离 散 过 程 使 用 类 
信息 ， 则 称 它 为 监督 的 离散 化 (supervised discretization ); 否则 是 非 监 督 的 
Cunsupervised)。 如 果 离 散 化 过 程 首 先 找 出 一 个 或 几 个 点 来 划分 整个 属性 区 间 ， 然 
后 在 结果 区 间 上 递归 地 重复 这 一 过 程 ， 则 称 它 为 自 顶 同 下 离散 化 或 分 裂 。 上 自 底 问 
上 离散 化 或 合并 正好 相反 ， 它 们 首先 将 所 有 的 连续 值 看 作 可 能 的 分 裂 点 ， 通 过 合 
并 邻 域 的 值 形成 区 间 ， 然 后 在 结果 区 间 递 归 地 应 用 这 一 过 程 。 

数据 离散 化 和 概念 分 层 产 生 也 是 数据 归 约 形式 。 原 始 数据 被 少 数 区 间或 标签 
取代 ， 这 人 简 化 了 原 数 据 ， 使 得 挖掘 更 有 效 。 挖 掘 的 结果 模式 一 般 更 容易 理解 。 对 
于 多 个 抽象 层 上 的 挖掘 ， 概 念 分 层 也 是 有 用 的 。 

(2) 通过 规范 化 变换 数据 

所 用 的 度量 单位 可 能 影响 数据 分 机。 例如， 把 height《〈 高 度 ) 的 上 度量 单位 从 
ee 把 weight《〈 质 量 ) 的 度量 单位 从 公斤 改 成 磅 ， 可 能 导致 完全 不 同 的 

结果 。 一 般 而 言 ， 用 较 小 的 单位 表示 属性 将 导致 该 属性 具有 较 大 值 域 ， 因 此 趋 回 

于 使 这 样 的 属性 具有 较 大 的 影响 或 较 高 的 “权重 ” 为 了 帮助 避免 对 度量 单位 选择 
的 依赖 性 ， 数 据 应 该 规范 化 或 标准 化 。 这 涉及 变换 数据 ， 使 之 落 入 较 小 的 共同 区 
间 ， 如 [-1，1】」 或 [0.0，1.0j]。 (在 数据 预 处 理 中 ， 术语 “规范 化 ”和 “标准 化 ” 
可 以 互 换 使 用 ， 尽 管 后 一 术语 在 统计 学 还 其 有 其 他 含义 。) 

规范 化 数据 试图 赋予 所 有 属性 相等 的 权重 。 对 于 涉及 神经 网 络 的 分 类 算法 或 

基于 距离 度量 的 分 类 〈 如 最 近邻 分 类 ) 和 聚 类 ， 规 范 化 特别 有 用 。 如 果 使 用 神经 

网 络 后 回 传 播 算 法 进行 分 类 挖掘 ， 对 训练 元 组 中 每 个 属性 的 输入 值 规范 化 将 有 助 
于 加 快 学 习 阶 段 的 速度 。 对 于 基于 距离 的 方法 ， 规 范 化 可 以 帮助 防止 具有 较 大 初 
始 值 域 的 属性 (如 income) 与 具有 较 小 初始 值 域 的 属性 〈“ 如 二 元 属性 ) 相 比 权重 
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过 大 。 在 没有 数据 的 先 验 知识 时 ， 规 范 化 也 是 有 用 的 。 

有 许多 数据 规范 化 的 方法 ， 下 面 将 介绍 三 种 : 最 小 -最 大 规范 化 、z 分 数 规范 
化 和 按 小 数 定 标 规范 化 。 在 下 述 讨论 中 ， 令 vw 为 数值 属性 ， 具 有 个 观测 值 ，v， 
Y> ， 多 Vv o 

Q) 最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 。 min、 和 max, 分 别 为 属性 4 
的 最 小 值 和 最 大 值 。 最 小 -最 大 规范 化 通过 计算 : 
ye Vv, SS 

IaxA 一 JIDOA 

把 4 的 值 vy 上 映射 到 区 间 [zaew_ min ,zew_ max,] 中 的 v 。 最 小 -最 大 规范 化 保 
持原 始 数 据 值 之 则 的 联系 。 如 果 今 后 的 输入 实例 落 在 4 的 原 数 据 值 域 之 外 ， 则 该 
方法 将 面临 “越界 ”错误 。 

【 例 3.2 】 最 小 -最 大 规范 化 。 假 设 属性 income 的 最 小 值 与 最 大 值 分 别 为 11 000 
美元 和 96 000 美元 。 我 们 想 把 income 映射 到 区 间 [0.0，1.0]。 根 据 最 小 -最 大 规 

74 600—11100 


范 化 ，74 600 美元 将 变换 为 : 一- -一 人 .0-0.0)+0.0=0.748 
96 000—11 000 


@ 在 z 分 数 (z-score) 规范 化 〈 或 零 均 值 规范 化 ) 中， 属性 4 于 4 的 均值 
〈 即 平均 值 ) 和 标准 差 规范 化 。4 的 值 v 被 规范 化 为 ww ， 由 下 式 计 算 : 
，v 一 4 
中 = 一 -一 

CA 

式 中 ，4 和 ao, 分 别 为 属性 4 的 均值 和 标准 差 。 当 属性 4 的 实际 最 小 值 和 最 大 值 
未 知 ， 或 离 群 点 左右 了 最 小 -最 大 规范 化 时 ， 该 方法 是 有 用 的 。 

【 例 3.3】z 分 数 规范 化 。 假 设 属性 income 的 均值 和 标准 差分 别 为 5400 美元 
和 1600 美元 。 使 用 z 分 数 规范 化 ， 值 7360 美元 被 转换 为 ， 人 一 =1.225 。 

标准 兰 可 以 用 均 信 绝对 侦 兰 蔡 换 。4 的 均值 绝对 偏差 (mean absolute 
deviation ) SS 定义 为 : 


(new max,—new min, )+new min.、 (3—3) 


(3—4) 




















Ce (3-5) 
Nn 
这 样 ， 使 用 均值 绝对 差 的 z 分 数 规范 化 为 
0 (3-6) 
DA 


对 于 离 群 氮 ， 均 值 绝 对 偶 兰 5S, 比 标准 产 更 加 和 鲁 棒 。 在 计算 均值 绝对 偏差 时 ， 
不 对 均值 的 仿 达 (|x% 一 X*|〉 取 平方 ， 因 此 离 群 太 的 影响 多 少 有 后 降低 。 

(3) 小 数 定 标 规范 化 通过 移动 属性 4 的 值 的 小 数 点 位 置 进行 规范 化 。 小 数 后 
的 移动 位 数 依赖 于 4 的 最 大 绝对 值 。4 的 值 v 被 规范 化 为 xw ， 由 下 式 计算 : 
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Un (3—7) 


式 中 ，j 是 使 得 max(|v |) 三 1 的 最 小 整数 。 

【 例 3.4】 小 数 定 标 。 假 设 4 的 取 值 为 -986 一 917。4 的 最 大 绝对 值 为 985。 因 
此 ， 为 使 用 小 数 定 标 规 范 化 ， 我 们 用 1000〔( 即 六 3 ) 除 每 个 值 。 因 此 ，-985 被 规 
范 化 为 -0.985， 而 97 被 规范 化 为 0.97。 

注意 ， 规 范 化 可 能 将 原来 的 数据 改变 很 多 ， 特 别 是 使 用 z 分 数 规范 化 或 小 数 
定 标 规范 化 时 。 还 有 必要 保留 规范 化 参数 (如 均值 和 标准 差 ， 如 果 使 用 z 分 数 规 
犯 化 的 话 )， 以 便 将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 

(3) 通过 分 箱 离 散 化 

分 箱 是 一 种 基于 指定 的 箱 个 数 的 目 顶 同 下 的 分 裂 技术 。 分 箱 方法 也 可 以 用 作 
数据 归 约 和 概念 分 层 产生 的 离散 化 方法 。 例 如 ， 通 过 使 用 等 宽 或 等 频 分 箱 ， 然 后 
用 箱 均 值 或 中 位 数 蔡 换 箱 中 的 每 个 值 ， 可 以 将 属性 值 离散 化 ， 就 像 用 箱 的 均值 或 
箱 的 中 位 数 光 滑 一 样 。 这 些 技术 可 以 递归 地 作用 于 结果 划分 ， 产 生 概 念 分 层 。 

分 箱 并 不 使 用 类 信息 ， 因 此 是 一 种 非 监督 的 离散 化 技术 。 它 对 用 户 指定 的 箱 
个 数 很 敏感 ， 也 容易 受 离 群 点 的 影响 。 

(4) 通过 直方 图 分 析 离 散 化 

像 分 箱 一 样 ， 直 方 图 分 析 也 是 一 种 非 监督 离散 化 技术 ， 因 为 它 也 不 使 用 类 信 
晨 。 直 方 图 把 属性 4 的 值 划分 成 不 相交 的 区 间 ， 称 为 桶 或 箱 。 例 如 ， 在 等 宽 直 方 
图 中 ， 将 值 分 成 相等 区 间 。 在 理想 情况 下 ， 使 用 等 频 直 方 图 ， 值 被 划分 ， 使 得 每 
个 分 区 包括 相同 个 数 的 数据 元 组 。 直 方 图 分 析 算 法 可 以 递归 地 用 于 每 个 分 区 ， 自 
动 地 产生 多 级 概念 分 层 ， 直 到 达到 一 个 预先 设 定 的 概念 层 数 ， 过 程 终止 。 也 可 以 
对 每 一 层 使 用 最 小 区 间 长 度 来 控制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 个 分 区 的 
最 小 宽度 ， 或 每 层 每 个 分 区 中 值 的 最 少数 目 。 

5. 数据 降 维 

(1) 主 成 分 分 析 

在 数据 挖掘 中 ， 我 们 经 常会 遇 到 多 个 变量 的 问题 ， 而 且 在 多 数 情 况 下 ， 多 个 
变量 之 间 常 常 存 在 一 定 的 相关 性 。 当 变量 个 数 较 多 量变 量 之 间 存 在 复杂 关系 时 ， 会 
显著 增加 分 析 问 题 的 复杂 性 。 如 果 有 一 种 方法 可 以 将 多 个 变量 综合 为 少数 几 个 代表 
性 变量 ， 使 这 些 变 量 既 能 够 代表 原始 变量 的 绝 大 多 数 信 息 又 互 不 相关 ， 那 么 这 样 的 
方法 无 疑 有 助 于 对 问题 的 分 析 和 建 模 。 这 时 ,就 可 以 考虑 用 主 成 分 分 析 法 (PCA )。 

1) PCA 的 基本 思想 。 主 成 分 分 析 是 采取 一 种 数学 降 维 的 方法 ， 其 所 要 做 的 
束 是 设法 将 原来 众多 其 有 一 定 相 关 性 的 变量 ， 草 新 组 合 为 一 组 新 的 相互 无 关 的 综 
合 变量 来 代 蔡 原来 变量 。 通 常 ， 数 学 上 的 处 理 方法 就 是 将 原来 的 变量 做 线性 组 合 ， 
作为 新 的 综合 变量 ， 但 是 这 种 组 合 如 果 不 加 以 限制 ， 则 可 以 有 很 多 ， 应 该 如 何 选 
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择 呢 ? 如 果 将 选取 的 第 一 个 线性 组 合 即 第 一 个 综合 变量 记 为 五 ， 自 然 希 望 它 尽 可 
能 多 地 反映 原来 变量 的 信息 。 这 里 “信息 ”用 方差 来 测量 ， 即 希望 var(i) 越 大 ， 
表示 五 包含 的 信息 越 多 。 因 此 在 所 有 的 线性 组 合 中 所 选取 的 环 应 该 是 方差 最 大 
的 ， 故 称 刀 为 第 一 主 成 分 。 如 果 第 一 主 成 分 不 足以 代表 原来 个 变量 的 信息 ， 再 
考虑 选取 巨 即 第 二 个 线性 组 合 。 为 了 有 效 地 反映 原来 信息 ，F 已 有 的 信息 就 不 需 
要 再 出 现在 丈 中 。 用 数学 语言 表达 就 是 要 求 cov(, 忆 )=09, 称 忆 为 第 二 主 成 分 ， 
依 此 类 推 可 以 构造 出 第 三 个 、 第 四 个 …… 第 p 个 主 成 分 。 

2) PCA 方法 步骤 。 下 面 简单 介绍 一 下 PCA 的 典型 步骤 。 

@Q) 对 原始 数据 进行 标准 化 处 理 假设 样本 观测 数据 矩阵 为 : 























el Mi J *™ Ny 
Re (3-8) 
2 Xi yn2 Niiy 
那么 可 以 按照 如 下 方法 对 原始 数据 进行 标准 化 处 理 : 
:Xj—X 
= (1,7 =1,2,.…, p) (3—9) 


XX.. 
/Var(x,) 
1x 1 ~ Ee 
具 中 i; 已 = 之 加 vat) = Cy TD) (f=b 2 p). 
i=1 ”| 


G@ 计算 样本 相关 系数 矩阵 。 
为 方便 ， 假 定 原始 数据 标准 化 后 仍 用 X 表 示 ， 则 经 标准 化 处 理 后 数据 的 相关 


系数 为 : 





Pp 
I ee. 有 
21 22 2p 
R=| . . . (3—10) 
/7 > /zz 


n 


COV(X,,X,) 2 Ce — XXy 一 
中 ， — 


7 
VVvar(x )V var(x, ) n | n 
DC —%) DC = ) 


@ 计算 相关 系数 矩阵 R 的 特征 值 (4 心 ,…, 加) 和 相应 的 特征 向 量 。 


a; = (di, Qs, a;,), i=1, Zs 





pe 








日 cov 表示 统计 学 中 的 协 方差 。 
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网 选择 重要 的 主 成 分 ， 并 写 出 主 成 分 表达 式 。 

主 成 分 分 析 可 以 得 到 疡 个 主 成 分 ， 但 是 各 个 主 成 分 的 方 关 是 递减 的 ， 包 全 的 
言 轧 量 也 是 递减 的 ， 因 此 实际 分 析 时 ， 一 般 不 是 选取 个 主 成 分 ， 而 是 根据 各 个 
主 成 分 素 计 页 献 率 的 大 小 选取 前 大 个 主 成 分 。 这 里 贡献 率 是 指 茶 个 主 成 分 的 方 产 
占 全 部 方 兰 的 比重 ， 实 际 也 就 是 茶 个 特征 值 局 全 部 特征 值 合 计 的 比重 ， 即 : 


























Pp 
贡献 率 = 和 1/ >》4 (3-11 ) 
i=] 


页 献 率 越 大 ， 说 明 该 主 成 分 所 包含 的 原始 变量 的 信息 越 强 。 主 成 分 个 数 的 
选取 ， 主 要 根据 主 成 分 的 累计 页 献 率 来 决定 ， 即 一 般 要 求 累 计 页 献 率 达 到 85% 以 
上 ， 这 样 才能 你 证 综合 变量 能 包括 原始 变量 的 绝 大 多 数 信 息 。 

另外 ， 在 实际 应 用 中 ， 选 择 了 重要 的 主 成 分 后 ， 还 要 注意 主 成 分 实际 舍 义 的 
解释 。 主 成 分 分 析 中 一 个 很 关键 的 问题 是 如 何 给 主 成 分 赋予 新 的 意义 ， 给 出 合理 
的 解释 。 一般 而 言 ， 这 个 解释 是 根据 主 成 分 表达 式 的 系数 结合 定性 分 析 来 进行 的 。 
主 成 分 是 原来 变量 的 线性 组 合 ， 在 这 个 线性 组 合 中 各 变量 的 系数 有 大 有 小 ， 有 正 
有 人 负 ， 有 的 大 小 相当 ， 因 而 不 能 简单 地 认为 这 个 主 成 分 是 茶 个 原 变量 的 属性 的 作 
用 。 线 性 组 合 中 各 变量 系数 的 绝对 值 大 者 表明 该 主 成 分 主要 综合 了 绝对 值 大 的 变 
量 。 当 几 个 变量 系数 大 小 相当 时 ， 应 认为 这 一 主 成 分 是 这 几 个 变量 的 总 和 。 这 几 
个 变量 综合 在 一 起 应 赋予 怎样 的 实际 意义， 不 要 结合 其 体 的 实际 问题 和 专业 ， 给 
出 恰当 的 解释 ， 进 而 才能 达到 深刻 分 析 的 目的 。 

a) 计算 主 成 分 得 分 

根据 标准 化 的 原始 数据 ， 控 照 各 个 样品 ， 分 劝 





























代入 主 成 分 表达 式 ， 束 可 以 得 
分 


到 各 主 成 分 下 的 各 个 样品 的 新 数据 ， 即 为 主 成 分 得 分 。 具 体形 式 如 下 : 
Fh Fh hr 
bh Pb, 的 Pr 
| : (3—12) 


其 中 ， =ajxy +apXy +t...+a,X,(i=1,2,., 1; j=1,2,.…,k). 

b) 依据 主 成 分 得 分 的 数据 ， 进 一 步 对 问题 进行 后 续 的 分 析 和 建 模 后 续 的 分 
析 。 建 模 常 见 的 形式 有 主 成 分 回归 、 变 量子 集合 的 选择 、 综 合 评价 等 。 

(2) 相关 系数 降 维 

设 有 如 下 两 组 观测 值 : 














a 


7 3 y2 
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DX, -XY -7) 
则 称 x-= 守 为 X 与 7 的 相关 系数 . 


由 


相关 系数 用 > 表示 ,7 在 -1 一 +1 之 间 取 值 。 相 关系 数 + 的 绝对 值 大 小 ( 即 |x|)， 
表示 两 个 变量 之 间 的 直线 相关 强度 。 相 关系 数 > 的 正 负 号 表示 相关 的 方向 ， 分 别 
是 正 相 关 和 负 相 关 。 蔡 相关 系数 r=0， 则 称 零 线 性 相关 ， 简 称 零 相关 ; 当 相 关系 
数 |r|=1 时， 表示 两 个 变量 是 完全 相关 。 这 时 两 个 变量 之 间 的 关系 成 了 确定 性 的 函 
数 关 系 ， 这 种 情况 在 行为 科学 与 社会 科学 中 是 极 少 存在 的 。 

和 股 说 来 ， 硬 观测 数据 的 个 数 足 够 多 ， 则 计算 出 来 的 相关 系数 ” 融会 更 真实 
地 反映 客观 事物 之 间 的 本 来 面目 。 

当 0.7 科 |7| 过 1 时 ， 称 为 高 度 相 关 ; 当 0.4 科 |7| 过 0.7 时 ， 称 为 中 等 相关 ; 当 
0.2 三 |x| 二 0.4 时 ， 称 为 低 度 相关 ; 当 |7| 雪 0.2 时 ， 称 极 低 相关 或 接近 零 相 关 。 

由 于 事物 之 间 联 系 的 复杂 性 ， 在 实际 研究 中 ， 通 过 统计 方法 确定 出 来 的 相关 
系数 + 即使 是 高 度 相 关 ， 我 们 在 解释 相关 系数 时 ， 还 要 结合 具体 变量 的 性 质 特点 
和 有 关 专 业 知 识 进行 。 两 个 高 度 相 关 的 变量 , 它们 之 间 可 能 具有 明显 的 因果 关系 ， 
也 可 能 只 具有 部 分 因果 关系 ， 还 可 能 没有 直接 的 因果 关系 一 一 其 数量 上 的 相互 天 
联 ， 只 是 它们 共同 受到 其 他 第 三 个 变量 所 文 配 的 结果 。 除 此 之 外 ， 相 关系 数 + 接 
近 零 ， 这 只 是 表示 这 两 个 变量 不 存在 明显 的 直线 性 相关 模式 ， 但 不 能 肯定 地 说 这 
两 个 变量 之 间 束 没有 规律 性 的 联系 。 通 过 散 点 图 有 时 会 发 现 ， 两 个 变量 之 间 存 在 
明显 的 某 种 曲线 性 相关 ， 但 计算 直线 性 相关 系数 时 ， 其 > 值 往 往 接 近 零 。 对 于 这 
一 点 ， 读 者 应 该 有 所 认识 。 


3.2.3 ”新 能 源 汽车 数据 预 处 理 


1. 终端 数据 预 处 理 

为 了 使 平台 能 够 有 效 地 采集 到 车 载 终端 中 的 数据 ， 可 以 通过 表 3-2 中 的 方法 
对 数据 进行 预 处 理 。 

Q 汽车 上 车 载 终 端 采 集 到 的 数据 有 正 有 负 ， 在 数据 传输 时 GB 32960 协议 无 
法 表示 正 负 值 ， 所 以 需要 将 采集 到 的 电流 值 转化 为 可 以 通信 的 数据 格式 。 例 如 : 
通过 数据 偶 移 的 方式 〈 即 传输 电流 值 = 采集 电流 值 +1000) 将 采集 到 的 电流 转换 为 
可 以 通信 的 数据 格式 ， 这 样 就 可 以 使 用 0 一 1000 来 表示 原来 在 -1000 一 0A 的 电流 
值 ， 用 1000 一 2000 表示 原来 在 0 一 1000A 的 电流 值 。 

@ 因为 GB 32960 协议 中 传输 数据 精度 没有 车 载 终 端 采 集 的 数据 精度 高 ， 所 
以 可 能 存在 采集 数据 中 小 数位 丢失 的 情况 。 为 了 提高 通信 时 的 数据 传输 精度 ， 需 
要 将 采集 到 的 数据 值 扩大 为 原来 的 10 倍 。 
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(3) 当 和 车载 终 六 采集 并 上 传 到 平台 的 数据 存在 超出 合理 范围 的 异常 情况 时 , 为 
了 避免 异常 数据 影响 平台 功能 的 正常 使 用 ， 可 以 对 异常 数据 进行 过 滤 。 
通过 图 3-5 的 方式 处 理 数 据 后 ， 不 仅 过 滤 了 异 彰 数据， 还 通过 数据 偶 移 的 方 
式 ， 使 得 数据 转变 为 可 以 通信 的 数据 格式 ， 提 高 了 数据 的 精度 。 处 理 完 成 的 数据 
会 保存 在 数据 库 中 ， 并 定时 同步 给 接 入 网 关 。 
数据 接 述 与 要 求 样 例 见 表 3-2。 
表 3-2 数据 描述 与 要 求 样 例 
数据 表示 内 容 | ”数据 类 型 描述 及 要 求 


有 效 值 范围 : 0 一 100〈 表 示 0% 一 100%)， 最 小 计量 单元 : 1%,，“0xFE” 
BYTE = ed 
表示 异常 ; “0xFF” 表 示 无 效 。 
有 效 值 范围 : 0 一 2200( 表 示 0 一 220knmyh ), 最 小 计量 单元 : 0.1knyh,“0xFF， 
WORD 29 一 em Am [44 并 入 
0xFE” 表 示 异 常 ,，“0xFF，0xFF” 表 示 无 效 。 


SOC 
车 速 
总 电 斥 有 效 值 范围 : 0 一 10 000 (表示 0 一 1000V)， 最 小 计量 单元 : 0.1V,“0xFF， 
总 电流 











0xFE” 表 示 异 常 ,“0xFF，0xFF” 表 示 无 效 。 
有 效 值 范围 : 0 一 20 000〈 偏 移 量 1000A， 表 示 -1000A 一 +1000A)， 最 小 
计量 单元 : 0.1A,“0xFF，0xFE” 表 示 异 常 , “0xFF，0xFF” 表 示 无 效 。 


车 载 终端 上 传 的 数据 首先 会 进入 接 入 网 天 。 接 入 网 关 对 车 载 终 山上 传 数 据 完 
成 解析 后 ， 调 用 预 处 理 模 块 对 每 个 数据 项 值 进行 有 效 验 证 。 预 处 理 模 块 的 判断 规 
则 是 把 当前 车 载 终 站 动态 上 传 的 数据 项 和 官 理 员 预 配置 的 有 效 取 值 范围 进行 大 小 
关系 比较 ， 对 寞 常数 据 置 空 处 理 。 平 台 后 续 功 能 模块 会 忽略 被 置 空 的 弄 第 数据 ， 
这 样 束 实现 了 对 终端 上 传 数据 的 预 处 理 功 能 。 


终端 上 传 数据 


接 入 网 关 
数据 预 处 理 












une 一 (aa (me wowmra 


图 3-5 终 疹 数 据 预 处 理 


2. 数据 分 析 前 对 数据 的 预 处 理 

数据 质量 是 数据 分 析 的 基础 ， 低 质量 的 数据 会 严重 影响 模型 精度 和 准确 度 ， 
因此 在 数据 分 析 之 前 要 先 对 原始 数据 进行 处 理 ， 提 高 数据 质量 。 从 平台 中 获得 的 
数据 由 于 数据 传输 过 程 中 可 能 出 现 的 丢 包 、 掉 帧 等 问题 而 存在 缺失 值 ， 在 对 数据 






预 处 理 结果 
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进行 分 析 之 前 要 先 人 处理 挥 这 些 缺 失 值 。 对 于 缺失 值 的 处 理 过 程 如 图 3-6 所 示 ， 具 
体 可 以 分 成 下 面 几 个 步 又 : 

GO 找 出 数据 集中 含有 缺失 值 的 数据 。 要 清洗 数据 集中 的 缺失 值 ， 首先 要 找 出 
数据 集中 存在 缺失 值 的 数据 记录 。 

判断 含有 缺失 值 记录 的 可 用 性 ,因为 本 文 所 出 的 统计 学 习 的 缺失 值 清洗 方 
法 的 适用 范围 是 单 变量 缺失 的 情况 ， 所 以 ， 对 于 找 出 的 存在 缺失 值 的 数据 记录 ， 
要 根据 包含 缺失 值 的 个 数 来 决定 该 条 记录 是 删 除 还 是 保留 

(3) 插 补 缺失 值 。 按照 缺失 值 所 在 的 属性 , 对 保留 下 来 存在 缺失 值 的 数据 记录 
进行 分 组 ， 然 后 利用 完整 的 数据 记录 ， 对 每 组 记录 中 的 缺失 值 做 基于 统计 学 习 的 


缺失 值 揪 补 。 
大 数据 平台 
获取 数据 源 
查找 含有 缺失 
值 记录 


记录 是 否 含有 


缺失 值 ? 


























































记录 的 可 用 
性 检测 


| 


缺失 值 搬 补 


日 


删除 记录 











图 3-6 缺失 值 处 理 流程 





3.2.4 ”小 结 
在 数据 收集 阶段 ， 需 要 强调 两 点 : 
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GO 数据 挖掘 的 数据 源 具 有 广义 的 特征 , 原则 上 与 数据 挖掘 目标 相关 的 数据 都 
可 以 作为 这 个 项 目的 原始 数据 。 所 以 在 数据 收集 阶段 应 尽量 友 散 思维 ， 尺 量 寻 找 
与 业务 关联 的 数据 ， 这 样 至 少 能 保证 数据 的 全 面 性 。 

@ 收集 数据 的 过 程 也 伴随 数据 的 抽样 。 如 末 对 数据 的 质量 不 够 了 解 ,最 简单 
直接 的 方法 就 是 先 把 这 些 数据 全 部 拿 过 来 ， 然 后 随 看 项 目的 深入 ， 再 逐渐 通过 抽 
样 来 归 约 。 

数据 预 处 理 是 数据 准备 的 重点 和 主要 工作 ， 实 践 中 没有 任何 一 个 数据 挖掘 的 
项 目 是 完美 的 ， 总 是 有 这 样 或 那样 的 问题 ， 因 此 数据 预 处 理工 作 是 必 不 可 少 的 。 
尽管 已 经 开 及 了 许多 数据 预 处 理 的 方法 ， 由 于 不 一 致 或 脏 数 据 的 数量 巨大 ， 以 及 
问题 本 身 的 复杂 性 ， 数 据 预 处 理 仍然 是 一 个 活跃 的 研究 领域 。 在 实践 中 ， 数 据 预 
处 理 的 过 程 非 党 灵活， 项目 之 间 数 据 预 处 理 过 程 的 经 验 可 以 信和 鉴 ， 但 基本 不 会 完 
全 相同 ， 所 以 说 数据 预 处 理 本 里 也 是 一 种 科学 与 艺术 相 结 合 的 过 程 。 




















数据 存储 














“大 数据 ”通常 指 的 是 那些 数量 巨大 且 难 于 收集 、 人 处理 、 分 析 的 数据 ， 是 需要 
新 处 理 模式 才能 具有 更 强 的 决策 力 、 洞 察 友 现 力 和 流程 优化 能 力 来 适应 海量 、 局 
增长 卒 和 多 样 化 的 信息 资产 。 随 厦大 数据 应 用 的 爆 友 性 增长 ， 它 已 经 衍生 出 耻 
己 独 特 的 染 构 ， 而 且 也 直接 推动 了 存储 、 网 络 以 及 计算 拉 术 的 友 展 。 


3.3.1 ”数据 存储 技术 路 线 


典型 的 大 数据 存储 技术 路 线 有 三 种 : 

1. MPP 关系 型 数据 库 

采用 MPP 架构 的 新 型 数据 库 集群 ,重点 面向 行业 大 数据 ,采用 Shared Nothing 
架构 ， 通 过 列 存储 、 粗 粒度 索引 等 多 项 大 数据 处 理 技 术 ， 再 结合 MPP 架构 高 效 的 
分 布 式 计 算 模 式 ， 完 成 对 分 析 类 应 用 的 文 撑 。 运 行 环 境 多 为 低 成 本 PC Server， 具 
有 高 性 能 和 高 扩展 性 的 特点 ， 在 企业 分 析 类 应 用 领域 获得 极其 广泛 的 应 用 。 

这 类 MPP 产品 可 以 有 效 文 撑 PB 级 别 的 结构 化 数据 分 析 ， 这 是 传统 数据 库 技术 无 
法 胜任 的 。 对 于 企业 新 一 代 的 数据 仓库 和 结构 化 数据 分 析 ， 目 前 选择 是 MPP 数据 库 。 

2. Hadoop 非 关系 型 数据 库 

基于 Hadoop 的 技术 扩展 和 封装 ， 围 绕 Hadoop 衍生 出 相关 的 大 数据 技术 ， 应 
对 传统 关系 型 数据 库 较 难处 理 的 数据 和 场景 ， 例 如 针对 非 结构 化 数据 的 存储 和 计 
算 等 ， 充 分 利用 Hadoop 开源 的 优势 。 随 看 相关 技术 的 不 断 进 步 ， 其 应 用 场景 也 
将 逐步 扩大 ， 目 前 一 种 典型 的 应 用 场景 瓯 是 通过 扩展 和 封装 Hadoop 来 实现 对 互 
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联网 大 数据 存储 、 分 析 的 文 撑 。 这 里 面 有 儿 十 种 NoSQL 技术 ， 也 在 进一步 地 细 
分 。 对 于 非 结构 / 半 结 构 化 数据 处 理 、 复 杂 的 ETL 流程 、 复 杂 的 数据 挖掘 和 计算 
模型 ，Hadoop 平台 更 为 适用 。 

3. 大 数据 一 体 机 

这 是 一 种 专 为 大 数据 的 分 析 人 处 理 而 设计 的 软 、 人 硬件 结合 的 产品 ， 由 一 组 集成 
的 服务 器 、 存 储 设备 、 操 作 系 统 、 数 据 库 省 理 系统 以 及 为 数据 查询、 人 处理、 分 析 
用 途 而 特别 预先 安装 及 优化 的 软件 组 成 。 高 性 能 大 数据 一 体 机 具有 良好 的 稳定 性 
和 纵 同 扩展 性 。 


3.3.2 ”新 能 源 汽车 数据 存储 


新 能 源 汽 车 大 数据 平台 的 存储 技术 主要 依据 专利 一 一 《GW201711293 发明. 
一 种 数据 存储 查询 方法 及 系统 》 它 公开 了 一 种 数据 存储 得 询 方法 及 系统 。 访 方法 
及 系统 应 用 于 逻辑 层 和 存储 层 相 互 独立 的 数据 存储 结构 。 它 包括 两 种 功能 。 在 数 
据 信 息 存 储 时 ， 将 数据 信息 存储 到 存储 层 ， 将 存储 数据 信息 的 存储 层 的 哈 希 值 区 
间 以 及 该 区 间 的 地 址 信息 存储 到 逻辑 层 ; 在 目标 数据 得 询 时 ， 通 过 计算 得 到 目标 
数据 哈 希 值 并 据 此 碍 找 该 值 所 在 的 哈 希 值 区 间 ， 然 后 根据 找到 的 哈 希 值 区 间 获 取 
对 应 地 址 信息 ， 进 而 直接 定位 到 目标 数据 ， 无 须 遍 历数 据 库 中 的 所 有 数据 。 本 小 
节 介 绍 关 于 第 一 种 功能 一 一 数据 存储 的 方法 。 相 关 流 程 图 如 图 3-7 所 示 。 

获取 数据 信息 


























对 所 述 数据 信息 进行 处 理 ， 得 到 第 一 键 - 值 对 数据 结构 、 第 二 键 - 值 对 数据 
结构 、 第 三 键 - 值 对 数据 结构 、 第 四 键 - 值 对 数据 结构 以 及 
第 五 键 - 值 对 数据 结构 


根据 所 述 哈 希 算法 ， 分 别 计算 所 述 第 键 - 值 对 数据 结构 、 所 述 第 二 键 - 
值 对 数据 结构 、 所 述 第 三 键 - 值 对 数据 结构 、 所 述 第 四 键 - 值 对 数据 结构 
以 及 所 述 第 五 键 - 值 对 数据 结构 中 的 所 述 数据 键 的 哈 希 值 


按照 所 述 第 一 键 - 值 对 数据 结构 中 的 所 述 数 据 键 的 哈 希 值 ， 确 定 所 述 数据 
信息 存储 的 磁盘 数据 存储 表 ， 按 照 所 述 第 二 键 - 值 对 数据 结构 中 的 所 述 数 
据 键 的 哈 希 值 ， 确 定 所 述 数 据 信息 存储 的 所 述 磁 盘 数 据 存 储 表 中 的 磁盘 年 
数据 存储 表 ; 按照 所 述 第 三 键 - 值 对 数据 结构 中 的 所 述 数 据 键 的 哈 希 值 ， 
确定 所 述 数据 信息 存储 的 所 述 磁 盘 年 数据 存储 表 中 的 磁盘 月 数据 存储 表 ; 
按照 所 述 第 四 键 - 值 对 数据 结构 中 的 所 述 数据 键 的 哈 希 值 ， 确 定 所 述 数据 
信息 存储 的 所 述 磁 盘 月 数据 存储 表 中 的 磁盘 日 数据 存储 表 ; 按照 所 述 第 五 
键 - 值 对 数据 结构 中 的 所 述 数据 键 的 哈 希 值 ， 确 定 所 述 数据 信息 存储 的 所 
述 磁 盘 日 数据 存储 表 中 的 磁盘 时 数据 存储 表 ， 并 将 所 述 数 据 信 息 存 入 所 述 
磁盘 时 数据 存储 表 中 











图 3-7 新 能 源 汽车 大 数据 平台 数据 存储 沪 程 
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1. 哈 希 值 9 及 哈 希 算法 介绍 
哈 希 算法 将 任意 长 度 的 二 进 制 值 映射 为 固定 长 度 的 较 小 二 进 制 值 ， 这 个 小 的 
二 进 制 值 称 为 哈 希 值 。 哈 希 值 是 一 段 数据 唯一 旦 极其 紧凑 的 数值 表示 形式 。 如 果 
散 列 一 段 明 文 而 且 哪 怕 只 更 改 该 段落 的 一 个 字母 , 随后 的 哈 希 都 将 产生 不 同 的 值 。 
要 找到 散 列 为 同一 个 值 的 两 个 不 同 的 输入 ， 在 计算 上 来 说 基本 上 是 不 可 能 的 。 
2. 数据 存储 方法 介绍 
数据 存储 方法 的 特征 在 于 所 述 数据 存储 方法 应 用 于 一 种 数据 存储 结构 。 所 述 
数据 存储 结构 包括 存储 结构 相互 独立 的 逻辑 层 和 存储 层 ， 所 述 存储 层 的 便 件 存储 
结构 为 磁盘 ， 所 述 馆 辑 层 的 硬件 存储 结构 为 内 存 ; 所 述 存储 层 包括 多 个 磁盘 数据 
存储 表 和 磁盘 数据 合并 表 ; 每 个 所 述 磁盘 数据 存储 表 包 括 多 个 磁盘 年 数据 存储 表 ; 
每 个 所 述 破 盘 年 数据 存储 表 包 括 12 个 磁盘 月 数据 存储 表 ; 每 个 所 述 磁 盘 月 数据 存 
储 表 中 包括 多 个 人 磁盘 日 数据 存储 表 ; 每 个 所 述 人 磁盘 日 数据 存储 表 包 括 24 个 人 磁盘 时 
数据 存储 表 ; 所 述 人 磁盘 数据 合并 表 包 括 多 个 人 磁 可 年 数据 合并 表 、 多 个 磁盘 月 数据 
合并 表 以 及 多 个 磁盘 日 数据 合并 表 ; 所 述 磁 盘 年 数据 合并 表 、 所 述 磁盘 月 数据 合 
并 表 以 及 所 述 磁盘 日 数据 合并 表 相 互 独立 ; 所 述 磁盘 年 数据 合并 表 用 于 保存 自然 
年 获取 的 数据 信息 ; 所 述 人 磁盘 月 数据 合并 表 用 于 你 存 目 然 月 获取 的 数据 信息 ; 所 
述 人 磁盘 日 数据 合并 表 用 于 保存 自然 日 获取 的 数据 信息 。 所 述 人 磁盘 数据 存储 表 、 所 
述 磁 盘 年 数据 存储 表 、 上 所 述 磁 盘 月 数据 存储 表 、 上 所 述 磁 盘 日 数据 存储 表 、 上 所 述 磁 
盘 时 数据 存储 表 、 所 述 磁盘 年 数据 合并 表 、 上 所 述 磁 盘 月 数据 合并 表 以 及 所 述 磁盘 
日 数据 合并 表 对 应 的 哈 希 值 区 间 互 不 相同 ， 所 述 逻辑 层 包 括 缓存 数据 表 、 数 据 存 
储 地 址 信息 表 、 数 据 合并 地 址 信息 表 以 及 数据 哈 希 值 存 储 表 ;所 述 数据 存储 地 址 
言 轧 表 用 于 保存 所 述 磁盘 年 数据 存储 表 的 哈 希 值 区 间 及 其 对 应 的 地 址 信息 、 所 述 
厂 盘 月 数据 存储 表 的 哈 希 值 区 间 及 其 对 应 的 地 址 信息 、 所 述 磁 盘 日 数据 存储 表 的 
哈 希 值 区 间 及 其 对 应 的 地 址 信息 、 所 述 磁 盘 时 数据 存储 表 的 哈 希 值 区间 及 其 对 应 
的 地 址 信息 ; 所 述 数 据 合并 地 址 信息 表 用 于 保存 所 述 人 磁盘 年 数据 合并 表 的 哈 希 值 
区 间 及 其 对 应 的 地 址 信息 、 所 述 磁盘 月 数据 合并 表 的 哈 硕 值 区 间 及 其 对 应 的 地 址 
信息 、 所 述 磁盘 日 数据 合并 表 的 哈 希 值 区 间 及 其 对 应 的 地 址 信息 。 所 述 数据 存储 
方法 包括 : 获取 数据 信息 ， 所 述 数据 信息 包括 车 信息 和 获取 所 述 车 信息 时 对 应 的 
时 间 信 息 ; 所 述 车 信息 包括 车 的 唯一 性 标识 信息 和 车 的 业务 数据 。 
对 所 述 数 据 信 息 进 行 处 理 ， 得 到 第 一 键 - 值 对 数据 结构 、 第 二 键 - 值 对 数据 结 












































9 一 般 的 线性 表 中 ， 记 录 在 结构 中 的 相对 位 置 是 随机 的 ， 即 和 记录 的 关键 字 之 间 不 存在 确定 的 关系 ， 因 此 ， 
在 结构 中 查找 记录 时 需 进 行 一 系列 和 关键 字 的 比较 。 这 一 类 查找 方法 建立 在 “比较 ”的 基础 上 ， 查 找 的 效率 
依赖 于 碍 找 过程 中 所 进行 的 比较 次 数 。 理 想 的 情况 是 能 直接 找到 需要 的 记录 , 因此 必须 在 记录 的 存储 位 置 和 
它 的 关键 字 之 间 建 立 一 个 确定 的 对 应 天 系 f， 使 每 个 关键 字 和 结构 中 一 个 唯一 的 存储 位 置 相对 应 。 该 函数 的 
输入 值 为 哈 希 值 。 可 以 简单 理解 为 查 字 典 时 的 页 码 ， 用 页 码 来 得 找 对 应 的 汉字 速度 会 非常 快 。 
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构 、 第 三 键 - 值 对 数据 结构 、 第 四 键 - 值 对 数据 结构 以 及 第 五 键 - 值 对 数据 结构 ; 
所 述 第 一 键 - 值 对 数据 结构 中 的 数据 键 存储 所 述 车 的 唯一 性 标识 信息 , 所 述 第 二 
键 - 值 对 数据 结构 中 的 数据 键 存储 所 述 时 间 信 息 中 的 年 信息 ;所 述 第 三 键 - 值 对 数 
据 结 构 中 的 数据 键 存 储 所 述 时间 信 息 中 的 月 信息 ; 所 述 第 四 键 - 值 对 数据 结构 中 的 
数据 键 存 储 所 述 时间 信 息 中 的 日 信息 ; 所 述 第 三 键 - 值 对 数据 结构 中 的 数据 键 存储 
所 述 时 间 信 息 中 的 时 信息 。 所 述 第 一 键 - 值 对 数据 结构 、 所 述 第 二 键 - 值 对 数据 结 
构 、 所 述 第 三 键 - 值 对 数据 结构 、 所 述 第 四 键 - 值 对 数据 结构 以 及 所 述 第 五 键 - 值 
对 数据 结构 中 的 数据 值 存 储 所 述 数据 信息 。 根 据 所 述 哈 硕 算 法 ， 分 别 计算 所 述 第 
一 键 - 值 对 数据 结构 、 所 述 第 二 键 - 值 对 数据 结构 、 所 述 第 三 键 - 值 对 数据 结构 、 
所 述 第 四 键 - 值 对 数据 结构 以 及 所 述 第 五 键 - 值 对 数据 结构 中 的 所 述 数据 键 的 哈 而 
值 ,按照 所 述 第 一 键 - 值 对 数据 结构 中 的 所 述 数 据 键 的 哈 硕 值 , 确定 所 述 数 据 信息 
存储 的 磁盘 数据 存储 表 ， 投 照 所 述 第 二 键 - 值 对 数据 结构 中 的 所 述 数据 键 的 哈 希 
值 ， 确 定 所 述 数 据 信息 存储 的 所 述 磁 盘 数 据 存 储 表 中 的 磁盘 年 数据 存储 表 ， 投 照 
所 述 第 三 键 - 值 对 数据 结构 中 的 所 述 数 据 键 的 哈 希 值 ,确定 所 述 数 据 信息 存储 的 所 
述 磁盘 年 数据 存储 表 中 的 磁盘 月 数据 存储 表 ; 按照 所 述 第 四 键 - 值 对 数据 结构 中 的 
所 述 数 据 键 的 哈 布 值 ， 确 定 所 述 数据 信息 存储 的 所 述 磁盘 月 数据 存储 表 中 的 磁盘 
日 数据 存储 表 ; 按照 所 述 第 五 键 - 值 对 数据 结构 中 的 所 述 数据 键 的 哈 希 值 ， 确 定 所 
述 数据 信息 存储 的 所 述 磁盘 日 数据 存储 表 中 的 磁盘 时 数据 存储 表 ， 并 将 所 述 数据 
言 轧 存 入 所 述 磁盘 时 数据 存储 表 中 。 


3.3.3 ”小结 


本 市 通过 介绍 数据 存储 的 集中 方式 和 新 能 源 汽车 大 数据 平台 的 一 种 数据 存储 
方式 及 其 使 用 的 哈 希 算法 ， 使 得 数据 预 处 理 后 的 数据 能 够 得 到 忌 善 的 人 存储， 为 下 
一 步 数 据 的 探 标 与 分 析 打 下 基础 。 















































数据 探索 与 分 析 





经 过 前 面 革 市 的 数据 人 准备， 我们 已 经 获得 了 一 些 质 量 较 高 的 基本 数据 。 在 正 
式 开始 挖掘 之 前 ， 通 当先 进行 数据 的 探索 ， 类 似 于 采矿 前 先 要 探测 一 下 要 挖掘 的 
日 标 人 矿藏 ， 然 后 再 展开 后 续 工 作 。 探 索 人 矿藏 ， 人 们 通常 的 天 注 点 是 人 矿 沁 的 储量 、 
分 布 特征 、 物 理化 学 属性 等 基本 信息 ， 从 而 衍生 出 对 于 采矿 工作 的 舍 计 ， 比 如 采 
矿 的 方式 、 工 具 、 人 员 配 备 等 内 容 。 在 进行 正式 的 数据 挖掘 前 ， 我 们 也 有 必要 了 
解数 据 的 量 、 属 性 特征 、 关 联 关 系 等 信息 ， 以 确定 数据 挖掘 的 模型 、 算 法 、 技 术 
路 线 等 内 容 。 
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所 谓 数据 的 探索 ， 是 指 对 已 有 的 数据 《特别 是 调查 或 观察 得 来 的 原始 数据 ) 
在 尽量 少 的 先 验 假定 下 进行 探索 ， 通 过 作 图 、 制 表 、 方 程 拟 合 、 计 算 特 征 量 等 手 
段 探 索 数 据 的 结构 和 规律 的 一 种 数据 分 析 方 法 。 特 别 是 当 我 们 对 这 些 数据 中 的 信 
恩 没 有 足够 的 经 验 ， 不 知道 该 用 何 种 传统 统计 方法 进行 分 析 时 ， 探 索性 数 扼 分 析 
就 会 非常 有 效 。 

探索 性 数据 分 析 强 调 灵 活 地 探求 线索 和 证 据 ， 重 在 发 现 数据 中 可 能 隐藏 着 的 
有 价值 的 信息 ， 比 如 数据 的 分 布 模 式 、 变 化 趋势 、 可 能 的 交互 影响 、 卉 常 变化 等 。 
下 面 将 介绍 数据 探索 利用 的 方法 和 技术 ， 以 达到 对 现 有 数据 进行 重新 分 类 整理 ， 
最 终 以 合适 的 方式 展现 的 目的 。 

对 数据 进行 统计 是 从 定量 的 角度 去 探索 数据 ， 也 是 最 基本 的 数据 探索 方式 ， 
其 主要 目的 是 了 解数 据 的 基本 特征 。 其 立足 的 重点 是 关注 数据 从 统计 学 上 反映 的 
量 的 特征 ， 以 便 更 好 地 认识 这 些 将 要 被 挖掘 的 数据 。 


3.4.1 ”数据 探索 与 统计 
基本 描述 性 统计 : 假设 有 一 个 容量 为 n 的 样本 ( 即 一 组 数据 )， 记 作 















































x=(%,%,… x )， 需 要 对 它 进行 一 定 的 加 工 ， 才 能 提取 有 用 的 信息 。 统 计量 即 是 
加 工 得 到 的 、 反 映 样本 数量 特征 的 函数 ， 不 含 任何 的 未 知 量 。 下 面 介绍 几 种 常用 
的 统计 量 。 


1. 表示 位 置 的 统计 量 : 算术 平均 值 和 中 位 数 
算术 平均 值 〈 人 简称 均值 〉 摘 述 数 据 取 值 的 平均 位 置 ， 记 作 xX。 其 数学 表达 
式 为 


元 = 一 (3-13) 
nN 1 





男 有 一 种 加 权 算术 平均 值 ， 为 原始 数据 经 过 分 组 ， 已 编 成 次 数 分 布 数列 情况 
下 的 数据 计算 。 设 数据 x 的 权 值 为 f 其 数学 表达 式 为 


1 n 
Te > (3-14) 
1 i=1 


算术 平均 数 的 特点 是 易于 理解 和 运算 但 是 受 极端 数值 的 影响 较 大 。 解 决 的 途 
径 是 采取 切 尾 平均 法 以 及 采用 不 受 其 他 极端 值 影响 的 平均 数 。 

中 位 数 是 将 数据 由 小 到 大 排序 后 位 于 中 间 位 置 的 那个 数值 。 中 位 数 的 特点 是 
不 受 极端 值 的 影响 并 且 主 要 用 于 定 序 数据 ， 也 可 以 用 于 定 矩 数据 ， 但 不 能 用 于 定 
类 数据 。 

2. 表示 数据 散 度 的 统计 量 : 标准 差 、 方 差 和 极 差 

标准 差 $ 定义 为 
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(3—15) 





] 忆 二 
之 区 -7) 
它 是 各 个 数据 与 均值 偏离 程度 的 度量， 反映 了 数据 波动 沁 围 的 大 小 。 公 式 中 
对 nn 个 (x 一 x) 平 方 求 和 ， 却 被 (n-1) 除 ， 这 是 出 于 无 偏 估计 的 要 求 。 
方差 是 标准 差 的 平方 ， 数 学 表达 式 为 o =S ， 其 作用 与 标准 差 类 似 。 
极 差 是 样本 中 最 大 值 与 最 小 值 的 甜 , 是 从 变动 范围 测度 总 体 数 据 的 离散 程度 ， 
其 计算 公式 为 























RS. — (3—16) 


极 差 的 特点 是 计算 简单 ， 容 易 理解 。 但 同时 它 也 过 于 粗略 ， 受 极端 值 的 影响 
大 ， 且 数据 的 利用 率 低 ， 信 息 丧 失 严重 ， 受 抽样 变动 大 。 

3. 表示 分 布 形 状 的 统计 量 : 偏 度 和 峰 度 

如 图 3-8 所 示 ， 偏 度 反 映 分 布 的 对 称 性 ， 偏 度 广 二 0 称 为 右 偏 态 ， 此 时 数据 
位 于 均值 右边 的 比 位 于 左边 的 多 ; 偏 度 二 0 称 为 左 偏 态 ， 此 时 数据 位 于 均值 左 
边 的 比 位 于 右边 的 多 ; 而 接近 于 0 则 可 认为 分 布 式 对 称 的 。 偏 度 的 数学 表达 式 
如 下 : 























i 
r= Cl 


no 

如 图 3-9 所 示 ， 峰 度 是 分 布 形 状 的 男 一 种 度量， 还 态 分 布 的 峰 度 为 3， 夺 峰 
度 玉 比 3 大 得 多 ， 则 表示 分 布 有 沉重 的 尾巴 ， 说 明 样 本 中 含有 较 多 远离 均值 的 数 
据 ， 是 为 局 平分 布 ， 夯 峰 上 度 KK 比 3 小， 则 表明 分 布 集中 ， 为 尖峰 分 布 。 因 而 峰 度 
可 以 用 作 衡 量 偏 离 正 态 分 布 的 尺度 之 一 。 峰 度 的 数学 表达 式 为 


_x4 
K-13 (3-18) 


1 ;=1 CO 











3-8 ” 仿 态 示意 图 
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图 3-9 峰 度 示意 图 
4. 分 布 描述 性 统计 
随机 变量 的 特性 完全 由 它 的 (概率 ) 分 布 图 数 或 〈 概 率 ) 密度 函数 来 摘 述 。 
设 有 随机 变量 人 ， 其 分 布 函 数 定 义 为 X 三 x 的 概率 ， 即 (x)= P{X 三 x}。 若 对 是 
连续 型 随机 变量 ， 则 其 密度 函数 p(X) 与 F(x) 的 关系 为 
F(x)= |_ pO)dx (3-—19) 


柱状 分 布 图 古 频数 分 布 图 ， 频数 除 以 样本 容量 n， 称 为 频率 。n 充分 大 时 频率 
是 概率 的 近似 ， 因 此 柱状 分 布 图 可 以 看 成 是 密度 函数 图 形 的 (离散 化 近似。 


3.4.2 ”数据 挖掘 与 应 用 


1. 数据 挖掘 简介 

数据 挖掘 是 一 个 从 大 量 数据 中 抽取 挖掘 出 未 知 的 、 有 价值 的 模式 或 规律 等 知 
识 的 复杂 过 程 。 数 据 挖掘 作为 一 个 新 兴 的 多 学 科 交 叉 应 用 领域 ， 正 在 各 行 各 业 的 
决策 支持 活动 中 扮演 着 越 来 越 重 要 的 角色 。 随 着 信息 技术 的 迅速 发 展 ， 各 行 各 业 
都 积累 了 海量 异 构 的 数据 资料 。 这 些 数据 往往 隐 含 着 各 种 各 样 有 用 的 信息 ， 仅 仅 
依靠 数据 库 的 查询 检索 机 制 和 统计 学 方法 很 难 获得 这 些 信 息 ， 人 迫切 需要 将 这 些 数 
据 转 化 成 有 用 的 信息 和 知识 ， 从 而 达到 为 决策 服务 的 目的 。 

数据 本 来 只 是 数据 ， 直 观 上 并 没有 表现 出 任何 有 价值 的 知识 。 当 我 们 用 数据 
安 气 方法 ， 从 数据 中 挖掘 出 知识 后 ， 需 要 判断 这 种 知识 是 否 可 人 和信。 为 了 说 明 这 种 
知识 是 可 信 的 ， 现 在 来 简要 介绍 一 下 数据 挖掘 的 原理 。 

数据 挖掘 的 实质 是 综合 应 用 各 种 技术 ， 对 于 业务 相关 的 数据 进行 一 系列 科学 
的 处 理 ， 在 这 个 过 程 中 需要 用 到 数据 库 、 统 计 学 、 应 用 数学 、 机 器 学 习 、 可 视 化 、 
言 息 科学 、 程 序 开发 以 及 其 他 学 科 。 其 核心 是 利用 算法 对 处 理 好 的 输入 /输出 数据 
进行 训练 ， 并 得 到 模型 ， 再 对 模型 进行 验证 ， 使 得 模型 能 够 在 一 定 程度 上 刻画 出 
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数据 由 输入 到 输出 的 关系 ; 然后 利用 该 模型 ， 对 新 输入 的 数据 进行 计算 ， 从 而 得 
到 新 的 输出 。 这 个 输出 然后 束 可 以 进行 解释 和 应 用 了 。 这 种 模型 虽然 不 容易 解释 
或 很 难看 到 ， 但 它 是 基于 大 量 数据 训练 并 经 过 验证 的 ， 因 此 能 够 反映 输入 数据 和 
输出 数据 之 间 的 大 致 关系 一 一 这 种 关系 〈 模 型 ) 就 是 我 们 需要 的 知识 。 可 以 说 ， 
这 了 吏 是 数据 挖掘 的 原理 。 从 中 可 以 看 出 ， 数 据 挖 掘 是 有 一 定 科学 依据 的 ， 这 样 挖 
掘 的 结果 也 是 值得 信任 的 。 

2. 数据 控 握 工具 

目前 ， 在 众多 可 用 于 数据 分 析 与 挖掘 的 工具 中 ， 既 有 专业 的 工具 ， 也 有 非 专 
业 的 工具 ， 既 有 郧 贯 的 了 黄 业 软件 ， 也 有 人 免 综 的 开源 软件 。KDnuggets 网 站 每 年 都 
会 做 一 份 关 于 常用 的 数据 分 析 软 件 调查 。 在 2016 年 末 该 网 站 对 用 户 进 行 了 调研 : 
“在 过 去 12 个 月 中 ， 你 在 数据 分 析 、 数 据 挖掘 、 数 据 科 学 和 机 器 学 习 的 项 目 中 ， 
经 利用 到 什么 软件 ? ”参与 投票 的 用 户 来 源 于 各 个 数据 分 析 与 数据 科学 领域 ， 共 
有 2895 个 投票 者 ， 从 102 种 工具 中 进行 投票 ， 得 到 的 结果 如 图 3-10 所 示 。 根 据 
投票 结果 ， 本 节 将 筛选 一 些 工 具 进行 简单 的 介绍 。 





























KDnuggets 投票 得 出 的 2016 年 常用 的 数据 分 析 软 件 
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3-10 ”KDnuggets 调研 得 出 的 2016 年 常用 的 数据 分 析 软 件 


( 方 及 语 守 

R 是 开源 编程 语言 和 软件 环境 ， 被 设计 用 来 进行 数据 挖掘 /分 析 和 可 视 化 。 在 
执行 计算 密集 型 任务 时 ， 在 R 环境 中 还 可 以 调用 C、C++ 和 Fortran 编写 的 代码 。 
此 外 ,专业 用 户 还 可 以 通过 C 语 言 直 接 调 用 R 对 象 , R 语言 是 S 语言 的 一 种 实现 。 
而 S 语言 是 由 AT&T 贝尔 实验 室 开 友 的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 
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的 解释 型 语言 。 最初 $ 语言 的 实现 主要 是 Ss-PLUS。 但 S-PLUS 是 一 个 商业 软件 ， 
相 比 之 下 开源 的 R 语言 更 受 欢 迎 。R 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 。 
R 是 属于 GNU 系统 的 一 个 目 由 、 免 费 、 源 代码 开放 的 软件 , 它 是 一 个 用 于 统计 计 
算 和 统计 制图 的 优秀 工具 。 它 可 以 运行 于 UNIX、Windows 和 Macintosh 的 操作 系 
统 上 ， 而 且 奶 入 了 一 个 非常 方便 实用 的 帮助 系统 。R 语言 有 以 下 优点 : 

GO R 是 目 由 软件 ， 它 是 完全 人 免费 的 、 开 放 源 代码 的 。 可 以 在 它 的 网 站 及 其 镜 
像 中 下 载 任何 有 关 的 安装 程序 、 源 代码、 程序 包 及 其 源 代码 、 文 档 资 料 。 

( R 是 一 种 可 编程 语言 。 作 为 一 个 开放 的 统计 编程 环境 ， 语 法 通俗 易 懂 ， 很 
容易 学 会 和 掌握。 

(3) 所 有 及 的 函数 和 数据 集 是 保存 在 程序 包 里 面 鸭 。 只 有 当 一 个 包 被 载 入 时 ， 
它 的 内 容 才 可 以 被 访问 。 一 些 和 常用 基本 的 程序 包 已 经 被 收入 了 标准 安装 文件 中 ， 
随 着 新 的 统计 分 析 方 法 的 出 现 ， 标 准 安 装 文 件 中 所 包含 的 程序 包 也 随 看 版 本 的 更 
新 而 不 断 变 化 一 一 有 2400 个 程序 包 ， 涵盖 了 基础 统计 学 、 社 会 学 、 经 济 学 、 和 生态 
学 以 及 生物 信息 学 等 方面 。 

(2) RapidMiner 

RapidMiner 是 用 于 数据 挖 据 、 机 占 学 习 、 预 测 分 析 的 开源 软件 。 提 供 的 数据 
安 据 和 机 器 学 习 程 序 包括 : 数据 加 载 和 转换 (ETL)、 数 据 预 处 理 和 可 视 化 、 建 模 、 
评估 和 部 署 。 数 据 挖掘 的 流程 是 以 XML 文件 加 以 描述 ， 并 通过 一 个 图 形 用 户 界 
面 显示 出 来 。RapidMiner 是 由 Java 编程 语言 编写 的 ， 其 中 还 集成 了 Weka 的 学 习 
器 和 评估 方法 ， 并 可 以 与 R 语言 进行 协同 工作 。RapidMiner 中 的 功能 均 是 通过 连 
接 各 类 算 子 (operator) 形成 流程 (process) 来 实现 的 ， 整 个 流程 可 以 看 做 是 工厂 
车 间 的 生产 线 ， 输 入 原始 数据 ， 输 出 模型 结果 。 算 子 可 以 看 做 是 执行 某 种 具体 功 
能 的 函数 ， 不 同 算 子 有 不 同 的 输入 /输出 特性 。RapidMiner 具有 丰 军 数据 挖掘 分 析 
和 算法 功能 ， 和 名 用 于 解决 各 种 的 商业 关键 问题 ， 如 营销 啊 应 率 、 客 户 细 分 、 客 户 
忠诚 度 及 终 映 价值 、 资 产 维护 、 资 源 规划 、 预 测 性 维修 、 质 量 管理 、 社 交 尹 体 监 
测 和 情感 分 析 等 典型 商业 案例 。 

(3) SQL 

结构 化 查询 语言 (Structured Query Language，SQL ) 是 一 种 具有 特殊 目的 的 
编程 语言 ， 是 一 种 数据 库 查 询 和 程序 设计 语言 ， 用 于 存 取 数据 以 及 查询 、 更 新 和 
管理 关系 数据 库 系 统 ， 同 时 也 是 数据 库 脚本 文件 的 扩展 名 。 结 构 化 得 询 语言 是 高 
级 的 非 过程 化 编程 语言 ， 允 许 用 户 在 高 层 数 据 结构 上 工作 。 它 不 要 求 用 户 指定 对 
数据 的 存放 方法 ， 也 不 需要 用 户 了 解 具体 的 数据 存放 方式 ， 所 以 具有 完全 不 同 抵 
层 结构 的 不 同 数据 库 系 统 ， 可 以 使 用 相同 的 结构 化 查询 语言 作为 数据 输入 与 管理 
的 接口 。 结 构 化 查询 语言 语句 可 以 艇 僚 ， 这 使 它 具 有 极 大 的 灵活 性 和 强大 的 功能 。 
1986 年 10 月 ， 美国 国家 标准 协会 对 SQL 进行 规范 后 ， 以 此 作为 关系 式 数据 库 管 
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理 系统 的 标准 语言 (ANSI X3.135 一 1986)，1987 年 在 国际 标准 组 织 的 支持 下 成 为 
国际 标准 。 

(4) Python 

Python 是 一 种 面 癌 对 象 的 解释 型 计算 机 程序 设计 语言 ， 由 人知 兰 人 Guido van 
Rossum 于 1989 年 发 明 ， 公 开发 行 于 1991 年 。Python 是 纯粹 的 目 由 软件 ， 源 代码 
和 解释 硕 CPython 如 循 GPL (GNU General Public License) 协议 。 

Python 以 开发 效率 兰 称 ， 它 人 致力 于 以 最 短 的 代码 完成 任务 。Python 还 被 称 为 
“胶水 语言 ” 它 人 允许 用 户 可 以 把 耗 时 的 核心 部 分 用 C/C++ 等 高 效率 的 语言 编写 ， 
然后 由 它 来 “ 粘 合 ” 这 将 很 大 程度 上 解决 Python 的 运算 效率 问题 。 在 大 多 数 数 
据 任 务 上 ，Python 的 运行 效率 已 经 可 以 媲美 C/C++ 语言 。Python 在 数据 科学 领域 
占据 越 来 越 重要 的 地 位 ， 通 过 图 3-10 可 以 看 出 2015$ 一 2016 年 ， 使 用 Python 进行 
数据 分 析 的 用 户 有 明显 的 增加 。Python 最 大 的 数据 人 处理 优势 束 是 有 很 多 相关 的 程 
序 库 可 以 安装 ， 调 用 后 即 可 被 用 户 使 用 。Python 数据 分 析 与 挖掘 的 相关 拓展 库 见 
表 3-3。 

如 图 3-10 所 示 ，Scikit-learn 也 被 提 到 是 经 常用 到 的 数据 分 析 工 具 之 一 ， 而 
Scikit-learn 是 Python 下 一 个 强大 的 机 器 学 习 工 具 包 ,下面 简 单 讲 解 Python 数据 分 
析 功 能 的 第 三 方 拓展 库 。 


表 3-3 ”Python 数据 分 析 与 挖掘 的 相关 拓展 库 








扩展 库 人 简 外 

矩阵 计算 与 其 他 大 多 数 框架 的 数据 处 理 基础 。 提 供 大 量 函 数 ， 同 时 提供 数组 和 和 拖 阵 两 种 数据 
umpy 类 型 

ScIpy 提供 矩阵 支持 ， 以 及 守 阵 相关 的 数值 计算 模块 

Pandas 基于 Numpy 构建 的 含有 更 高 级 数据 结构 和 工具 的 数据 分 析 包 。 提供 Series 和 Dataframe 架构 





Matplotlib 强大 的 数据 可 视 化 工具 、 作 图 库 
Statsmodels 统计 建 模 和 计量 经 济 学 ， 包 括 描述 统计 、 统 计 模 型 估计 和 推断 





Scikit-learn 支持 回归 、 分 类 、 聚 类 等 强大 的 机 器 学 习 库 
NLTK 自然 语言 处 理 的 工具 包 
(S$) Excel 


Excel 是 微软 的 Office 办 公 软 件 的 核心 组 件 之 一 , 提供 了 强大 的 数据 处 理 、 统 
计 分 析 和 辅助 决策 等 功能 。 在 安装 Excel 的 时 候 ， 一 些 具 有 强大 功能 的 分 析 数 据 
的 扩展 插件 也 被 集成 了 ， 但 是 这 些 插件 需要 用 户 的 局 用 才能 被 使 用 ， 这 其 中 就 包 
含 了 分 析 工 具 库 (Anlyasis ToolPak〉 和 规划 求解 回 导 项 (Solver Add-in〉 等 插件 。 

(6) Hadoop 

Hadoop 是 一 个 实现 了 MapReduce 计算 模型 的 开源 分 布 式 并 行 编程 框架 。 
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MapReduce 的 概念 来 源 于 Google 实验 室 , 它 是 一 个 简化 并 行 计算 的 编程 模型 , 适 
用 于 大 规模 集群 上 的 海量 数据 处 理 ， 目 前 最 成 功 的 应 用 是 分 布 式 搜索 引 苟 。 
Hadoop 原来 是 Apache Lucene 下 的 一 个 子 项 目 ， 它 最 初 是 从 Nutch 项 目 中 分 离 出 
来 的 专门 负责 分 布 式 存储 以 及 分 布 式 运 算 的 项 目 , 由 HDFS、MapReduce、HBase、 
Hive 和 ZooKeeper 等 成 员 组 成 。 其 中 ，HDFS 和 MapReduce 是 两 个 最 基础 、 最 重 
要 的 成 员 。 

HDFS 用 于 解决 海量 数据 存储 问题 ， 文 持 大 数据 文件 ， 文 件 分 块 存储 ， 并 且 
共有 高 可 靠 性 和 容错 性 ， 数 据 能 够 和 目 动 复 制 ， 可 目 我 修复 。 

MapReduce 是 一 种 编程 模型 ， 是 一 种 编程 方法 。 通 过 MapReduce， 可 以 很 容 
易 地 在 Hadoop 平台 上 进行 分 布 式 的 计算 编程 ， 加 快 数据 处 理 速度 ， 提 高 效率 。 

Hadoop 的 一 些 主要 特点 : 

Q) 扩容 能 力 〈Scalable): 能 可 靠 地 存储 和 处 理 千 兆 字 节 (PB) 数据 。 

@ 成 本 低 〈Economical): 可 以 通过 普通 机 器 组 成 的 服务 器 群 来 分 发 以 及 处 
理 数 据 。 这 些 服 务 右 群 总 计 可 达 数 千 个 节点 。 

(3) 高 效率 (Efficient): 通过 分 发 数据 ，Hadoop 可 以 在 数据 所 在 的 节点 上 并 
行 地 处 理 它 们 ， 这 使 得 处 理 非 常 快 速 。 

4) 可 徘 性 (Reliable): Hadoop 能 自动 地 维护 数据 的 多 份 复 制 ， 并 且 在 任务 
失败 后 能 上 自动 地 重新 部 署 计 算 任 务 。 

(7) Spark 

Spark 最 初 由 美国 加 州 伯克利 大 学 (UCBerkeley)〉 的 AMP 实验 室 于 2009 年 
开发 ， 是 基于 内 存 计算 的 大 数据 并 行 计算 框 架 ， 可 用 于 构建 大 型 的 、 低 延迟 的 数 
据 分 析 应 用 程序 。2013 年 ，Spark 加 入 Apache 孵化 器 项 目 后 发 展 迅 猛 ， 如 今 已 成 
为 Apache 软件 基金 会 最 重要 的 三 大 分 布 式 计 算 系 统 (Hadoop、Spark、Storm) 开 
源 项 目 之 一 。Spark 具有 如 下 几 个 主要 特点 : 

(D 运行 速度 快 : 使 用 DAG 执行 引擎 以 文 持 循 环 数据 流 与 内 存 计 算 。 

@) 容易 使 用 : 支持 使 用 Scala、Java、Python 和 R 语言 进行 编程 ， 可 以 通过 
Spark Shell 进行 交互 式 编程 。 

(3) 通用 性 : Spark 提供 了 完整 而 强大 的 技术 栈 ， 包 括 SQL 但 询 、 流 式 计算 、 
机 器 学 习 和 图 算法 组 件 。 

(4) 运行 模式 多 样 : 可 运行 于 独立 的 集群 模式 中 ， 可 运行 于 Hadoop 中 ， 也 可 
运行 于 Amazon EC2 等 云 环境 中 ， 并 且 可 以 访问 HDFS、Cassandra、HBase、Hive 
等 多 种 数据 源 。 

Spark 的 设计 章 循 “一 个 软件 栈 满足 不 同 应 用 场景 ”的 理念 ， 逐 渐 形 成 了 一 
僚 完 整 的 生态 系统 ， 既 能 够 提供 内 存 计算 框架 ， 也 可 以 文 持 SQL 即时 三 询 、 实 时 
流 式 计算 、 机 器 学 习 和 图 计算 等 。Spark 可 以 部 署 在 资源 管理 需 YARN 之 上 ， 提 
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供 一 站 式 的 大 数据 解决 方案 。 因此 ，Spark 所 提供 的 生态 系统 足以 应 对 上 述 三 种 场 
景 ， 即 同时 支持 批 处 理 、 交 互 式 查 询 和 流 数 据 处 理 。Spark 生态 系统 组 件 的 应 用 场 
景 见 表 3-4。 








表 3-4 Spark 生态 系统 组 件 的 应 用 场景 


复杂 的 批量 数据 处 理 oa 
基于 历史 数据 的 交互 式 查询 分 钟 级 、 秒 级 Spark SQL 
基于 实时 数据 流 的 数据 处 理 人 
基于 历史 数据 的 数据 迫 气 | “ 一 | wa | wm 

图 结构 数据 的 处 理 el Ha | Graphx 


3.4.3 ”新 能 源 汽车 数据 探索 与 分 析 


为 了 描述 新 能 源 汽车 的 探索 与 分 析 过 程 ， 本 节 引 出 一 个 概念 一 一 生生 变量 。 
本 市 中 , 利用 衍生 变量 的 概念 去 描述 不 同 维度 下 新 能 源 汽车 大 数据 平台 中 的 数据 ， 
能 够 挖掘 到 一 些 内 容 。 

1. 衍生 变量 的 定义 

顾名思义 ， 衍 生变 量 是 由 其 他 已 经 拥有 的 变量 通过 不 同形 式 的 组 合 而 衍生 出 
的 变量 。 例 如 ， 己 知 一 个 物体 的 质量 、 长 上 度 、 体 积 ， 束 可 通过 对 现 有 的 三 个 变量 
的 组 舍得 到 一 些 衍 生变 量 ， 如 密度 = 质量 /体积 ， 线 密度 = 质量 /长 度 。 

在 数据 挖掘 过 程 中 ， 通 各 需要 对 现 有 的 变量 进行 各 种 形式 的 衍生 ， 以 得 到 更 
多 可 用 的 变量 。 虽 然 衍 生变 量 与 原始 变量 有 一 定 的 相关 性 ， 但 能 更 直观 地 反映 事 
物 的 茶 些 特征 ， 表 现在 数据 上 吏 会 更 直接 。 因 此 茶 些 衍生 变量 在 数据 欣 掘 过 程 中 
反而 共有 比 其 原本 变量 更 大 的 效用 。 类 似 于 上 文 提 及 的 密度 和 线 密度 ， 针 对 哪些 
物体 可 以 漂浮 在 水 面 上 的 研究 ， 只 要 根据 密度 这 一 衍生 变量 融 可 以 判断 出 来 。 

2. 变量 衍生 的 原则 和 方法 

变量 衍生 的 方法 多 种 多 样 ， 也 没有 统一 的 标准 ， 因 此 对 于 任何 一 个 数据 挖掘 
项 目 都 有 无 数 个 衍生 变量 。 当 我 们 期 望 从 无 穷 多 的 衍生 变量 中 找到 我 们 所 需要 的 
衍生 变量 时 ， 残 需要 遵守 以 下 的 衍生 变量 原则 : 

GO 衍生 变量 能 够 客观 地 反映 事物 的 特征 。 

GO 衍生 变量 与 数据 挖掘 的 业务 目标 有 一 定 的 联系 。 

当然 ,在 这 个 原则 指导 下 产生 的 衍生 变量 还 是 很 宽泛 上 的 ， 往 往 还 要 按照 一 定 的 方 
法 ， 再 融入 对 业务 的 理解 产生 衍生 变量 。 这 里 提供 几 个 基本 的 产生 衍生 变量 的 方法 : 

(D 对 多 个 列 变量 进行 组 合 。 例如 ,里 高 的 平方 /体重 (肥胖 指数 )、 负债 /收益 、 
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总 通话 时 间 / 总 呼叫 次 数 、 网 页 访问 量 / 购 买 总 量 等 。 

@ 按照 维度 分 类 汇总 。 例 如 ,在 分 析 无 线 通信 客户 流失 现象 时 发 现 按照 手机 
型 号 分 类 汇总 的 流失 率 〈 流 失 数量 /该 手机 型 号 客户 总 数 ) 比 单纯 用 手机 型 号 分 类 
的 数量 数据 更 有 用 。 

@) 对 某 个 变量 进一步 分 解 。 例 如 ， 对 于 日 期 变量 ， 可 以 进一步 分 解 为 季 
节假日 、 工 作 日 、 周 未 等 变量 。 

@ 对 具有 时 间 序 列 特征 的 变量 可 以 进一步 提取 时 序 特征 。 例如， 一段 时 间 的 
总 开销 、 平 均 增 长 率 、 初 始 值 与 终 值 的 比率 、 两 个 相 邻 值 之 间 的 比率 、 顾 客 在 候 
期 购物 占 年 度 比重 、 周 末 电 话 时间 平 均 长 度 与 每 周 电话 时 间 平 均 长 度 等 。 

3. 新 能 源 汽车 领域 衍生 变量 介绍 

新 能 源 汽 车 大 数据 平台 上 导出 的 数据 非常 丰富 , 可 以 批量 导出 多 辆 车 的 数据 ， 
也 可 以 实时 追踪 其 中 的 某 一 辆 车 的 实时 行驶 数据 。 对 于 数量 如 此 庞大 的 数据 ， 可 
以 暂时 分 为 三 类 : 空间 维度 、 时 间 维 度 和 新 能 源 汽车 特有 的 充 放电 及 电池 状态 数 
据 。 下 面 就 这 三 个 方面 分 别 介绍 一 些 衍生 变量 : 

(1) 空间 维度 衍生 变量 

空间 维度 入 生变 量 主要 基于 行驶 里 程 、 速 度 、 加 速度 和 位 置信 息 等 产生 。 其 
中 运用 比较 广泛 的 数据 是 基于 行驶 里 程 产生 的 里 程 利用 率 。 计 算 公式 如 下 : 

,。,，。 新 能 源 汽车 相 邻 两 次 充电 之 间 的 行驶 里 程 
J 新 能 源 汽车 官方 续 驶 里 程 

新 能 源 汽车 相 邻 两 次 充电 之 间 的 行驶 里 程 ， 即 从 这 一 次 充电 结束 起 ， 至 下 一 
次 充电 开始 止 ， 新 能 源 汽车 所 运行 的 总 里 程 数 。 访 里程 数 实质 上 体现 的 是 续 驶 里 
程 ， 例 如 某 品牌 新 能 源 汽 车 电池 容量 大 、 电 池 包 数目 多 ， 则 该 值 就 偏 大 。 

考虑 到 不 同 新 能 源 汽车 的 定价 和 品牌 定位 不 同 ， 为 专注 于 研究 车 辆 的 性 能 和 
行驶 中 其 他 因素 〈 如 环境 、 驾 驶 员 等 ) 的 影响 ， 需 要 对 行驶 里 程 进行 无 量 纲 化 的 
处 理 。 通 过 上 述 公式 可 得 到 里 程 利 用 率 。 

里 程 利用 率 体现 的 是 车 辆 行驶 能 力 的 利用 程度 ， 受 到 车 辆 性 能 水 平 、 驾 驶 员 
驾驶 水 平 、 当 地 基础 设施 水 平和 环境 因素 (如 温度 等 ) 等 多 方面 因素 的 影响 。 在 
不 同 的 背景 下 对 里 程 利用 率 进行 讨论 ， 将 衍生 出 多 种 多 样 的 研究 方向 ， 例 如 ， 针 
对 同一 季节 、 同 一 地 区 、 同 一 车 型 的 多 辆 车 里 程 利用 率 研究 ， 将 能 在 一 定 程度 上 
反映 出 驾驶 员 的 驾驶 技术 和 对 新 能 源 汽车 的 驾驶 信心 ， 从 而 可 以 对 诸如 电动 出 租 
车 公司 驾驶 员 的 培训 提供 相关 方面 的 指导 。 

(2) 时 间 维 度 衍 生变 量 

每 时 每 刻 都 有 大 量 车 辆 在 路 上 运行 ， 同 时 产生 数据 发 送 到 平台 端 。 但 是 ， 由 
于 人 们 的 生活 作息 原因 ， 一 天 当中 的 不 同时 间 段 被 赋予 了 独特 的 含义 。 图 3-11 
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所 示 为 一 天 当中 不 同时 间 段 电动 出 租车 行驶 和 充电 的 数量 分 布 图 , 以 1h 为 最 小 统 
计 单 位 初步 分 析 一 天 当中 电动 出 租车 行驶 和 充电 数量 的 变化 情况 ， | 定 
的 行驶 规律 。 进 一 步 可 以 将 一 天 当中 的 时 间 按 照 人 们 生活 工作 作 居 进行 分 类 ， 比 
如 早 蜗 峰 、 工 作 时 段 、 晚 蝇 峰 和 休 恩 时 段 等 。 针 对 不 同 的 时 段 研究 出 租车 调动 东 
略 和 充电 蛇 略 ， 具 有 非常 巨大 的 参考 价值 。 


430 








目 行 驶 车 辆 数 旧 充电 车 辆 数 


pol 
0 

SN 

S 


图 3-11 攻 月 北 泵 市 电动 出 租车 日 均 行驶 、 a 


(3) 新 能 源 汽 车 特有 的 充 放 电 和 电池 状态 数据 

和 平 第 使 用 的 手机 、 手 提 电 脑 等 便携 式 设备 一 样 ， 如 今 的 纯 电动 汽车 大 部 分 
使 用 的 是 锂 离子 电池 。 为 了 满足 车 辆 较 长 的 续 驶 里 程 ， 纯 电动 汽车 的 车 载 动力 电 
闻 一 般 容量 较 大 ， 所 需要 的 充电 时 间 较 长 ， 充 电 电流 较 大 ， 传 统 的 充电 技术 不 能 
满足 其 需求 。 纯 电动 汽车 的 充电 方式 一 般 分 为 沼 规 充电 〈 慢 充 ) 和 快速 充电 《人 快 
充 )。 常 规 充电 站 是 为 市 车 载 充 电机 的 纯 电 动 汽车 设计 的 , 采用 常规 充电 电流 充电 ， 
一 般 分 布 在 大 民 区 或 工作 场所 附近 ， 当 规 充电 站 充电 电流 较 小 (0.1C~0.5C)。 快 
速 序 电站 是 为 纯 电动 汽车 提供 快速 充电 设施 的 场所 , 目的 是 在 短 时 间 内 给 车 充电 ， 
充电 电流 和 电压 较 高 ， 充 电机 的 工作 功率 也 较 高 。 

由 于 两 种 充电 方式 所 和 需 的 充电 站 设备 的 要 求 不 同 ， 充 电 时 对 电池 产生 的 影响 
也 不 同 。 因 此 ， 将 两 种 充电 方式 分 开 来 研究 十 分 必要 。 不 同 序 电 行 为 可 对 动力 电 
池 以 及 区 域 电网 峰值 功率 等 造成 巨大 影响 ,图 3-12 所 示 为 出 租车 充电 开始 的 时 刻 
频次 图 ， 对 快 充 和 慢 充 进行 对 比 ， 综 合 时 间 维 上 度 变 量 因 系 来 进行 研究 。 从 图 中 可 
以 看 出 ， 慢 充 的 局 峰 时 间 段 在 晚间 10 点 左右 ， 快 元 的 局 峰 时 间 段 在 午间 12 点 左 
右 ， 这 对 充电 枯 的 规划 工作 具有 很 大 的 参考 价值 。 


3.4.4 ”小 结 


本 节 主 要 对 数据 探索 与 分 析 进 行 了 介绍 ， 数 据 的 探索 主要 是 指 对 数据 进行 统 
计 学 分 析 ， 包 括 统计 量 、 散 度 和 位 置 量 的 统计 对 比 等 ， 数 据 分 析 主 要 是 对 已 进行 
数据 预 处 理 的 数据 进行 数据 挖掘 的 过 程 。 本 节 介 绍 了 7 种 常用 的 数据 挖掘 工具 ， 


充电 车 辆 数 ( 辆 ) 
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图 3-12 作 月 北京 市 电动 出 租车 充电 开始 时 刻 频 次 图 


并 在 最 后 利用 衍生 变量 , 同时 结合 新 能 源 汽车 大 数据 平台 中 采集 的 数据 ， 从 空间 、 
时 间 和 新 能 源 汽车 特有 属性 三 个 维度 上 对 数据 进行 了 分 析 。 正 是 通过 科 选 、 结 合 、 
对 比 等 数据 探索 与 分 析 过 程 ， 这 些 数 据 才 形成 了 最 终 有 价值 的 信息 ， 这 也 惑 是 大 
数据 应 用 的 主要 目的 。 














效 据 可 钢化 





数据 可 视 化 是 关于 数据 视觉 表 现形 式 的 科学 技术 研究 。 其 中 ， 这 种 数据 的 视 
觉 表 现形 式 被 定义 为 一 种 以 茶 种 概要 形式 抽 提 出 来 的 信息 ， 包 括 相 应 信息 单位 的 
各 种 属性 和 变量 9S。 维 基 百 科 对 数据 可 视 化 的 定义 较为 权威 ， 它 认为 数据 可 视 化 
是 较 为 高 级 的 撤 术 方 法 ， 而 这 些 技术 方法 允许 利用 图 形 、 图 像 处 理 、 计 算 机 视 筑 
以 及 用 户 界 面 ， 通 过 表达 、 建 模 以 及 对 立体 、 表 面 、 属 性 以 及 动画 的 显示 ， 对 数 
据 加 以 可 视 化 解释 。 

在 对 数据 进行 统计 之 后 , 即 可 对 数据 形成 一 定 的 认识 , 但 还 edn de 
想 将 数据 中 表达 的 内 涵 和 对 数据 的 认识 直观 、 形 象 、 准 确 地 表现 出 来 ， 仍 需 
一 些 其 他 的 步骤 。 数 据 可 视 化 就 是 _。 种 优质 的 ”直观 的 方法 ， 用 图 的 形式 将 数据 

的 特征 表现 出 来 ， 这 样 我 们 就 能 够 更 清晰 地 认识 数据 。 
数据 可 视 化 则 在 借助 于 图 形 化 手段 ， 清 晰 有 效 地 传达 与 沟通 信息 。 一 幅 图 胜 
过 千言 万 语 ， 人 类 从 外 界 获得 的 信息 约 有 80% 以 上 来 源 于 视 沉 系统 。 当 大 数据 以 直 
观 地 可 视 化 图 形 形 式 展示 在 分 析 者 面前 时 ， 分 析 者 往往 能 够 一 眼 洞 悉数 据 育 后 隐藏 
的 信息 并 转化 为 知识 和 知 芒 。 那 么 ， 使 用 得 最 广泛 的 图 形 展示 方法 义 有 哪些 呢 ? 本 
市 将 介绍 几 种 常用 的 大 数据 分 析 可 视 化 方法 , 并 结合 当前 新 能 源 汽车 国家 监测 与 管 



































日 ”数据 可 视 化 、 信 息 可 视 化 、 知 识 可 视 化 三 者 的 区 别 和 联系 可 参考 http: //dataunion.org/3554.html。 


83 


新 能 源 汽车 


大 数据 分 析 与 应 用 技术 

理 平台 数据 进行 展示 。 
3.5.1 数据 可 视 化 工具 
1. 发 展 历 史 


数据 可 视 化 的 历史 可 以 退 溯 到 20 世纪 50 年 代 计 算 机 图 形 学 的 早期 ， 人 们 利 
用 计算 机 创建 出 了 首 批 图 形 图 表 。 到 了 1987 年 ， 一 篇 题 为 《Visualization in 
Scientific Computing》( 科 学 计算 之 中 的 可 视 化 ， 即 “科学 可 视 化 ”) 的 报告 成 为 数 
据 可 视 化 领域 友 展 的 里 程 碑 。 它 强调 了 推广 基于 计算 机 的 可 视 化 技术 的 必要 性 。 

随 看 人 类 采集 数据 的 种 类 和 数量 的 增长 ， 以 及 计算 机 运算 能 力 的 提升 ， 蜗 级 
的 计算 机 图 形 学 技术 与 方法 越 来 越 多 地 应 用 于 处 理 和 可 视 化 这 些 规模 庞大 的 数据 
集 。20 世纪 90 年 代 初 期 ,“ 信 息 可 视 化 ”成 为 新 的 研究 领域 ， 则 在 为 许多 应 用 领 
域 中 抽象 数据 集 的 分 析 工 作 提 供 文 持 。 

目前 ， 数 据 可 视 化 是 一 个 包含 科学 可 视 化 和 信息 可 视 化 的 新 概念 。 它 是 可 视 
化 技术 在 非 空间 数据 上 新 的 应 用 ， 可 以 让 人 们 不 再 局 限于 通过 关系 数据 表 来 观察 
和 分 析 数 据 ， 还 能 以 更 直观 的 方式 看 到 数据 及 数据 之 间 的 结构 关系 。 

2. 数据 可 视 化 工具 介绍 

现 如 今 数 据 资源 越 来 越 丰 主 ， 但 是 只 有 从 数据 中 及 时 有 效 地 获取 到 有 用 的 信 
居 ， 这 些 数 据 资 源 才 有 意义 。 利 用 数据 可 视 化 工具 可 以 形象 直观 地 发 现 数据 背后 
隐藏 的 规律 和 价值 。 本 节 将 对 当前 最 第 用 的 6 种 数据 可 视 化 工具 进行 介绍 。 

(1) Tableau Desktop 

Tableau Desktop 是 Tableau 公司 开发 的 商业 智能 工具 软件 。Tableau Desktop 
不 仅 可 以 让 用 户 目 己 编写 代码 ， 还 可 以 目 定义 控制 台 配 置 。 控 制 台 上 共有 监测 信息 
以 及 提供 完整 分 析 的 能 力 ， 而 且 还 具有 灵活 和 拥有 较 高 的 动态 性 的 特性 。 

Tableau Desktop 数据 来 源 有 多 种 形式 ， 能 同时 文 持 Excel 以 及 各 种 数据 库 类 
型 ， 还 能 以 web 模式 发 布 全 网 络 中 供 别 人 访问 。 

Tableau Desktop 能 够 将 数据 运算 与 优美 的 图 表 完 美 地 尹 接 在 一 起 。 它 通过 拖 
放 程 序 把 所 有 的 数据 展示 到 数字 “画布 ”上 ， 转 眼 吏 能 创建 好 各 种 网 表 。 而 且 筷 
还 有 多 种 展现 形式 ， 操 作 人 员 能 够 目 定义 图 表 类 型 ， 并 以 多 种 图 形 的 方式 进行 展 
现 ， 同 时 针对 不 同 的 展示 图 形 有 不 同 的 说 明 (图 3-13 )。 

当 用 户 完 成 图 形 绘制 后 ，Tableau Desktop 数据 库 中 的 数据 会 目 动 更 新 ， 并 进 
行 目 动 同步 。 同 时 Tableau Desktop 中 还 集成 了 趋势 分 析 ， 能 对 数据 未 来 的 走 问 进 
行 一 定 的 趋势 分 析 。 

(2) Python 一 matplotlib 

浏览 一 下 Python 程序 库 目 录 ， 你 会 发 现 无 论 要 男 什 么 图 ， 都 能 找到 相对 的 
库 一 一 从 适用 于 眼球 移动 研究 的 GazeParser， 到 用 于 可 视 化 实时 神经 网 络 训练 过 
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程 的 pastalog。 许 多 库 可 以 用 于 广泛 的 领域 , 还 有 
数据 可 视 化 展示 如 图 3-14 所 示 。 


Business Charts 
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All Items 


Value (Y) Axis * 


Select one column you want to display for the y axis of the chart 


Total Amount v| |SUM v 


Category (X) Axis * 
Select one column you want to display for the 


Product Name v 


Group by 
Specify a column by which to group data， 


Select a column v 
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Tableau Desktop 数据 可 视 化 展示 


有 效 里 程 与 上 线 里 程 相 对 误差 .png - Photos 





平均 值 =17,473 % 
标准 差 =9,289 % 


0.3 0.4 
有 效 里 程 与 上 线 里 程 相对 误差 


0.5 0.6 0.7 








‘+save_name+'.png', dpi = 600) 


D ， 
3 Created on Tue Nov 14 17:59:41 2067 

4 

5 @author: CCDS 

7 import pandas as pd 

8 import os 

9 import numpy as np 

10 import matplotlib.pyplot as plt 5 

11 import seaborn as sns 

12 import matplotlib.mlab as mlab 

13 import matplotlib.lines as mlines 4 

14 import matplotlib as mpl 

15 

16 刀 3 

17mpl.rcParams[ 'font.size'] = 16 全 

18 custom font = mpl.font manager.FontPropertie 密 

19 

20 def sigma_filter(data,k): 

21 data filter = data[abs(data - data.mean( 

22 return data filter 

23 def plotpic(Err_ GPS _En1,xlable,binsnum,save .| 1 

24 

25 

26 sns.set style( "whitegrid") Sr 00 0 1 02 
27 

28 sns-distplot(Err _ GPS _En1,bins = binsn 

29 hist kws=dict(edgec 

36 plt.xlabel(save_name,fontproperties=c 

31 plt.ylabel( "珍稀 束 管 ,fontproperties=c 

32 point=mlines.Line2D([],[],color='blue',alpha=8.0) 

33 plt.legend([point,point],[' ¥ 访 借 =%.3f YW%'%(Err_GPS_Enl.mean()*100), \ 
34 ' 并 兰 =-%.3f WH '%(100*Err_GPS_ En1.std())],prop=custom font) 
36 plt.savefig( 'M:\\26171114MLeageCalLculation\\picture2, 

37 plt.close() 


于 


39 read file path = "M:\\28171114MilLeageCalLculLation\\h 
40 dataR6 = pd.read excel(read file path) 

41 

42 dataR = dataR8[ (dataR8[' 广 僵 旦 凑 ']>180)] 


hiLeage Verifica 


CL 


201 7 


on_ pic\\carn sheet 





3-14 Python 数据 可 视 化 展示 
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其 中 matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 类 似 Matlab 的 
API， 非 党 适合 交互 式 绘 图 。 它 的 文档 相当 完备 ， 并 且 Gallery 页 和 面 (http:// 
matplotlib.org/gallery.html〉 中 有 上 百 幅 缩 略 图 ， 打 开 之 后 都 有 源 程序 。 因 此 如 果 
需要 绘制 茶 种 类 型 的 图 ， 只 需要 在 这 个 页 面 中 浏 虎 /复制 /粘贴 一 下 残 可 以 完成 。 

因为 matplotlib 是 第 一 个 Python 可 视 化 程序 库 ， 所 以 许多 程序 库 都 是 建立 在 
它 的 基础 上 或 者 直接 调用 它 。 例 如 pandas 和 Seaborn 就 是 matplotlib 的 外 包 ， 它 
们 可 以 直接 调用 matplotlib。 

因为 用 matplotlib 可 以 很 方便 地 得 到 数据 的 大 致 信 和 息 ， 但 是 如 果 要 快捷 简单 
地 制作 可 供 发 表 的 图 表 就 不 那么 容易 了 。 就 像 Chris Moffitt 在 “Python 可 视 化 工 
有 具 简介 ”中 提 到 的 一 样 :“ 功 能 非常 强大 ， 也 非常 复杂 ” 

(3) R—ggplot2 

R 语言 提供 了 一 套 令 人 满意 的 内 置 函数 和 库 ， 如 ggplot2、leaflet 和 lattice， 
用 于 建立 可视化 效果 以 呈现 数据 。 因 为 ggplot2 具有 使 图 形 精美 、 函 数 和 参数 设置 
方便 记忆 ， 人 代码 可 用 性 强 ， 以 及 可 以 很 方便 地 定制 图 形 等 优点 ， 所 以 经 单 被 用 来 
对 数据 进行 可 视 化 。 下 面 主要 介绍 ggplot2 的 数据 可 视 化 过 程 (图 3-15 )。 
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(D 绘图 与 数据 分 离 ， 数 据 相关 的 绘图 与 数据 无 关 的 绘图 分 离 。 这 可 以 说 古 
ggplot2 最 为 吸引 人 的 腕 点 。 众 所 周知 ， 数 据 可 视 化 束 是 将 数据 中 探索 的 信息 与 图 
形 要 系 对 应 起 来 的 过 程 。ggplot2 将 绘图 与 数据 、 数 据 相 关 的 绘图 与 数据 无 关 的 绘 
图 进行 分 离 ， 有 点 类 似 Java 的 MVC 框架 思想 。 这 让 ggplot2 的 使 用 者 能 清楚 分 
明 地 感受 到 一 张 数 据 分 析 图 真正 的 组 成 部 分 ， 有 人 针对 性 地 进行 开发 和 调整 。 

图 层 式 的 开发 逻辑 。 在 ggplot2 中 ,图 形 的 
绘制 是 一 个 个 图 层 添加 上 去 的 。 举 个 例子 来 说 , 探 
索 映 高 与 体重 之 间 的 关系 。 首 先 男 一 个 简单 的 散 
点 图 ， 然 后 用 不 同 颜 色 区 分 性 别 ， 再 将 整体 拆 成 
东 中 西 三 幅 小 图 ， 最 后 加 入 回归 直线 ， 这 样 就 可 
以 直观 地 看 出 身高 与 体重 的 关系 。 这 是 一 个 层 层 
推进 的 结构 过 程 ， 在 每 一 个 推进 中 ， 都 有 额外 的 
言 思 被 加 入 进来 。 在 使 用 ggplot2 的 过 程 中 ， 上 述 
的 每 一 步 都 是 一 个 图 层 , 并 能 够 车 加 a 到 上 一 步 并 可 
视 化 展示 出 来 。ggplot2 数据 可 视 化 步骤 如 图 3-16 
所 示 。 

(3) 各 种 图 形 要 系 的 自由 组 合 。 由 于 ggplot2 
的 图 层 式 开发 逻辑 , 我 们 可 以 自由 组 合 各 种 图 形 要 
素 ， 充 分 目 由 发 挥 想象 力 。 

(4) Excel 

Office 是 人 们 最 常用 的 办 公 工 具 ， 在 进行 简单 ”图 3-16 ggplot? 数据 可 倪 化 步 骂 
的 数据 处 理 时 ，Excel 显然 是 最 方便 人 们 使 用 的 。Excel 作为 一 个 入 门 级 工具 ， 一 
直 为 用 户 使 用 来 进行 数据 可 视 化 展示 ， 不 仪 能 通过 Excel 内 在 集成 的 图 表 来 对 选 
定 的 数据 源 进行 可 视 化 展示 (图 3-17)， 也 能 创建 供 内 部 使 用 的 数据 图 ， 是 快速 
分 析 数 据 的 理想 工具 。 

Excel 通过 直方 图 、 折 线 图 、 散 点 图 、 气 泡 图 以 及 条 形 图 等 方式 对 数据 进行 可 
视 化 ， 使 用 方法 简单 ， 且 具有 以 下 优点 : 

( 在 同一 个 程序 里 运行 数据 分 析 并 且 创建 可 视 化 。 

@ 数据 多 种 展现 的 方式 进行 比较 。 

(3) 改变 平 铺 、 布 局 和 其 他 格式 选择 。 

(4) Excel 推荐 数据 最 好 的 可 视 化 方式 。 

($) MATLAB 

MATLAB 自 产 生 之 日 起 束 具 有 方便 的 数据 可 视 化 功能 , 用 以 将 回 量 和 和 矩阵 用 
图 形 表 现 出 来 ， 并 且 可 以 对 疼 形 进行 标注 和 打印 。 高 层次 的 作 岁 包括 二 维和 三 维 
的 可 视 化 、 图 像 处 理 、 动 画 和 表达 式 作 图 。 可 用 于 科学 计算 和 工程 绘图 。 狐 版 本 
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的 MATLAB 对 整个 图 形 处 理 功 能 做 了 很 大 的 改进 和 完善 ， 使 它 不 仪 在 一 般 数 据 
可 视 化 软件 都 具有 的 功能 (例如 三 维 曲 线 和 三 维 曲 面 的 绘制 和 处 理 等 方面 ) 更 加 
完善 ， 而 且 对 于 一 些 其 他 软件 所 没有 的 功能 (例如 图 形 的 光照 处 理 、 色 度 处 理 以 
及 四 维 数据 的 表现 等 ), 同样 表现 了 出 色 的 处 理 能 力 。 同时 对 一 些 特殊 的 可 视 化 要 
求 ， 例 如 图 形 对 话 等 ，MATLAB 也 有 相应 的 功能 函数 ， 保 证 了 用 户 不 同 层 次 的 要 
求 。MATLAB 数据 可 视 化 展示 如 图 3-18 所 示 。 


























# Figure 1 口 Xx 
文件 (F) ”编辑 (E) ”查看 (V) 插入 () 工具 (了 T) 桌面 (D) 窗口 (W) 帮助 (H) 和 
a | J 过 由 ~ 好 [DS Su ~ ee 口 四 口 四 








图 3-18 MATLAB 数据 可 视 化 展示 


88 


第 3 章 
新 能 源 汽车 大 数据 应 用 流程 


(6) 大 数据 历 蚀 

目前 ， 国 内 也 有 许多 数据 可 视 化 工具 ， 例 如 : 大 数据 魔 镜 为 国 云 数 据 旗下 的 
一 蒜 大 数据 可 视 化 分 析 工 具 。 大 数据 魔 镜 拥 有 国内 强大 的 可 视 化 效 末 库 , 文 持 500 
多 种 图 表 ， 包 括 列 表 、 人 饼 图 、 汤 斗 图 、 艇 点 图 、 线 图 、 柱 状 图 、 条 形 图 、 区 域 图 、 
气泡 图 、 和 窍 阵 、 地 图 、 树 状 图 、 时 间 友 列 相关 的 图 表 ， 还 支持 树 图 、 社 交 网 络 图 、 
3D 图 表 等 多 维 动 态 图 表 类 型 。 大 数据 魔 锐 目前 支持 市 面 上 所 有 数据 源 ， 云 平台 版 
和 基础 企业 版 支持 Excel 和 Mysql, 高 级 企业 版 文 持 SQL Server、ORACLE、Access、 
NOSQL、MongoDB、DB2 以 及 Hadoop、Spark 等 数据 源 ; 除 此 之 外 ， 大 数据 魔 
镜 还 文 持 Google Analytics、 微 信 、 微 博 、 淘 宝 、 泵 东 等 第 三 方 社会 化 数据 源 ， 供 
开发 者 使 用 。 大 数据 麻 镜 数据 可 视 化 展示 如 图 3-19 所 示 。 

大 数据 麻 镜 最 大 的 特点 是 云 平台 免费 (企业 基础 版 也 是 免费 的 ), 可 视 化 的 效 
果 较 多 ， 可 视 化 演 染 速度 快 。 目 前 大 数据 秦 锐 有 四 个 版 本 : 云 平台 版 、 基 础 企业 
版 、 高 级 企业 版 和 Hadoop 版 。 

Q) 云 平台 版 : 永久 人 免费， 适合 接受 SAAS 的 企业 和 个 人 进行 数据 分 析 使 用 。 

@ 基础 企业 版 : 可 代 蔡 报表 工具 和 传统 BI， 适 合 中 小 型 企业 内 部 使 用 ， 可 
全 公司 协同 分 析 。 

(3) 局 级 企业 版 : 适合 大 型 公司 ， 最 好 有 数据 仓库 ， 帮 助 企业 完成 数据 转型 。 

(4) Hadoop I PB 级 别 大 数据 计算 ， 实时 计算 ， 完美 兼容 Spark、Hbase 
非 结 构 化 计算 ， 适合 大 数据 处 理 公 司 ， 最 好 数据 有 一 定 积 累 ， 有 Hadoop、Spark 
ee 




















江苏 移动 江苏 省 赛 特 斯 系统 告警 分 布 
时 IB 2015011€ 








3-19 大 数据 魔 镜 数据 可 视 化 展示 
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3.5.2 ”新 能 源 汽车 数据 可 视 化 


车 辆 运行 数据 繁多 复杂 ， 很 难 直 接 从 数据 中 发 现 车 辆 运行 规律 以 及 车 辆 运行 
状态 ， 通 过 数据 可 视 化 可 以 清楚 地 显示 出 这 些 情况 。 本 节 结 合 新 能 源 汽车 实际 运 
行 数 据 ， 以 几 种 党 用 的 数据 可 视 化 形式 为 例 ， 展示 新 能 源 汽车 的 数据 可 视 化 过 程 。 

1. 折线 图 

折线 图 可 以 用 来 显示 某 一 变量 随时 间 (或 另外 的 变量 ) 的 变化 而 变化 的 趋 
势 ， 能 够 非常 清晰 地 反映 出 数据 变化 情况 ， 以 及 从 中 预测 出 一 定 的 数据 未 来 走 
势 。 如 果 分 类 标签 是 代表 着 均匀 分 布 的 数值 (如 日 、 月 、 季 上 度 和 年 等 ;， 则 推荐 
使 用 折线 图 。 

图 3-20 所 示 为 菜 月 北京 市 电动 出 租车 日 行驶 总 里 程 情况 统计 。 由 图 可 知 当 月 
的 20 号 出 租车 运营 里 程 非常 少 , 结合 气象 部 门 消 轧 ,当月 20 号 北京 市 普 降 暴雨 ， 
大 大 影响 人 们 的 出 行 。 此 外 ，3 号 、10 号 、17 号 、24 号 、31 号 是 星期 日 ， 可 以 
发 现 星期 日 的 出 租车 行驶 总 里 程 相 较 于 工作 日 减少 较 多 ， 这 对 于 研究 人 们 的 出 行 
习惯 和 合理 规划 出 租车 排 班 具有 重要 意义 。 
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图 3-20 某 月 北京 市 电动 出 租车 日 行驶 总 里 程 
2. 柱状 图 





柱状 图 是 一 种 以 长 方形 的 长 度 为 变量 的 表达 图 形 的 统计 报告 图 。 柱 状 图 通过 
其 高 度 的 大 小 ， 来 清晰 表达 不 同 指标 对 应 的 指标 值 生 接 的 对 比 ， 让 浏览 者 一 目 了 
然 。 制 作 这 类 数据 可 视 化 视图 时 ， 最 重要 的 是 要 精确 计算 出 需要 表达 的 尺度 和 比 
例 。 柱 状 图 可 以 进一步 发 展 成 三 维 的 情况 ， 增 加 指标 数量 ， 丰 主 对 比 。 

图 3-21 是 菜 月 北京 市 新 能 源 汽车 日 均 上 线 率 统 计 图 ,由 图 可 以 看 到 共 圣 租赁 
新 能 源 汽车 使 用 情况 最 为 活路 ; 而 对 于 电动 出 租车 来 说 ， 城 区 和 邓 区 的 上 线 紊 有 
10% 的 差异 ， 这 个 差异 是 由 于 政策 法 规 、 城 郊 基础 设施 不 同 ， 还 是 出 租车 司机 出 
行 意愿 、 乘 和 客 出 行 选择 等 问题 造成 的 ， 值 得 深入 研究 ， 邦 外 ， 电 动 环卫 车 和 商用 
车 的 上 线 率 太 低 ， 是 售 需 要 政策 引导 和 削减 投放 ， 应 当 深 电 。 
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23.1%0 


出 租车 (郊区 ) 出 租车 (城区 ) 商用 车 环卫 车 








图 3-21 某 月 北京 市 新 能 源 汽车 日 均 上 线 率 


3. 饼 图 

饼 图 通过 把 圆 分 成 对 应 比例 的 各 个 部 分 ， 来 展示 不 同类 别 的 占据 比例 和 百 
分 数 。 它 主要 用 来 表达 某 一 类 型 数据 在 整体 中 所 占 的 比重 以 及 与 其 他 类 型 相 比 
较 情 况 ， 可 以 很 明显 地 突出 所 要 表达 的 重点 。 在 数据 类 型 较 多 时 ， 对 比 感 比 柱状 
图 更 强 。 

图 3-22 是 某 月 北京 市 电动 车 分 时 租赁 租用 时 长 和 行驶 里 程 次 数 分 布 图 。 可 以 
看 出 每 次 租赁 的 使 用 时 长 和 车 辆 行驶 里 程 具有 比较 多 样 的 特征 ， 但 短途 短 时 租赁 
占据 了 绝 大 部 分 比重 。 传 统 汽 车 租赁 服务 往往 面 问 需要 长 时 间 、 长 距离 行驶 的 客 
户 ， 因 为 短途 通勤 的 情况 下 ， 公 共 交 通 和 出 租车 显然 更 为 方便 划算 。 图 中 的 结 
体现 出 人 们 当前 对 纯 电 动 汽 车 的 行驶 里 程 还 不 够 有 信心 ， 男 外 一 方面 则 反映 出 租 
赁 行业 的 客户 引 叶 服务 还 需要 加 强 。 






































1S0km 以 上 
9% 


48h 以 上 
5% y 


90~120km 
24~48h 9% NN 
Cn 


0%0 
60~90km 530% 
11% 









0~2h 
49% 


8~24h 
21% 


4~8h 2~4h 
8% o 
" UU. 30~60km 
18% 


图 3-22 作 月 北京 市 电动 车 分 时 租赁 时 长 和 里 程 分 布 
4. 箱 形 图 
箱 形 图 义 称 为 合式 图 或 箱 线 图 ， 是 一 种 用 作 显 示 一 组 数据 分 敌情 况 资 料 的 统 
计 图 ， 因 其 形状 如 箱子 而 得 名 。 绘 制 箱 形 图 时 需 使 用 常用 的 统计 量 ， 能 够 提供 有 
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关 数 据 位 置 和 分 散 情况 的 关键 信息 ， 尤 其 在 比较 不 同 的 母体 数据 时 能 更 明显 地 表 
现 其 差异 。 箱 形 图 所 需要 的 常用 统计 量 通 常 有 平均 值 、 最 大 值 、 最 小 值 、1/4 分 位 
值 、3/4 分 位 值 等 。 其 主要 作用 有 识别 数据 异常 值 、 判 断 数据 偏 态 和 尾部 重量 以 及 
比较 几 批 数据 的 形状 等 。 

图 3-23 是 某 月 北京 市 不 同行 政 区域 电 动 出 租车 单车 日 均 行驶 里 程 箱 形 图 。 
图 中 的 数值 即 箱 形 中 的 蓝 线 值 ， 代 表 了 该 区 域 车 日 均 行驶 里 程 ， 箱 形 的 上 下 线 
位 置 的 值 , 分 别 是 该 区 域 单车 日 行驶 里 程 /4 和 3/4 分 位 点 ; 顶部 和 底部 蓝 色 的 
线 位 置 的 值 , 分 别 是 该 区 域 单车 日 行驶 里 程 的 最 大 值 和 最 小 值 。 由 图 可 以 看 出 ， 
市 区 不 管 是 最 大 值 还 是 均值 都 是 图 中 最 高 的 水 准 ， 说 明 市 区 运营 条 件 相 对 比较 
好 ， 密 云 和 昌平 区 的 均值 较 低 且 最 大 值 也 较 低 ， 说 明 当 地 运营 车 辆 或 是 基础 设 
施 方面 存在 问题 ， 而 延庆 区 和 大 兴 区 均值 较 低 却 拥有 较 高 的 最 大 值 ， 说 明 当地 
的 运营 策略 和 方式 存在 问题 ， 或 者 是 数据 方面 存在 误差 ， 所 有 区 域 的 最 小 值 都 
是 0 或 接近 于 0， 说 明 有 一 部 分 电动 出 租车 并 未 物 尽 其 用 。 这 些 问题 都 值得 认 
真 考虑 。 



































单车 日 均 里 程 km 








市 区 ”房山 区 怀柔 区 ”顺义 区 平谷 区 大 兴 区 通州 区 密云 区 昌平 区 延庆 区 
图 3-23 茶 月 北京 市 各 行政 区 域 电 动 出 租车 单车 日 均 行驶 里 程 


5. 地 区 分 布 图 

当 指 标 数 据 要 表达 的 主题 跟 地 域 有 关联 时 ， 我 们 一 般 会 选用 地 图 为 大 背景 。 
数据 变量 在 每 个 区 域 的 地 图 可 以 使 用 颜色 级 数 来 表示 ， 通 过 颜色 块 的 深浅 来 表现 
每 个 地 区 数据 的 变化 情况 。 将 数据 信息 和 地 图 结合 起 来 ， 丰 富 了 信息 量 的 维度 ， 
也 能 为 分 析 者 提供 一 个 分 析 方 同 的 新 思路 。 

图 3-24 是 北京 市 不 同行 政 区 电动 出 租车 充电 情况 对 比 图 .颜色 的 深浅 体现 出 
不 同 区 域 充 电量 的 多 少 。 从 图 中 可 以 看 出 , 各 行政 区 域 之 间 充 电 情 况 非 党 不 平衡 ， 
差距 非常 显著 。 这 种 差距 造成 的 原因 可 能 是 政策 差异 、 基 础 设施 建设 、 出 租车 投 
放 数 量 造成 的 。 
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不 同行 政 区 域 5 月 总 充电 量 对 比 图 
| 充电 量 
15 “上 66453 












h 





密云 区 
110kW :hh 






昌平 区 
~ 1337kW:h 


门头沟 区 
162kW .h 


房山 区 
1052kW*h 


137SKW 让 -三 









到 3-24 北京 市 各 行政 区 电动 出 租车 充电 情况 


3.5.3 ”小结 


本 节 主 要 介绍 了 数据 可 视 化 的 一 些 常 用 工具 ， 以 及 新 能 源 汽车 数据 可 视 化 的 
行 干 实例 。 信 助 可 视 化 工具 ， 通 过 疼 形 化 的 手段 ， 可 以 将 原始 数据 转换 成 便于 人 
们 理解 和 观察 的 信息 形式 。 在 数据 量 不 断 增 加 的 大 数据 时 代 ， 人 们 很 难 从 海量 的 
数据 中 快速 地 获取 到 重要 的 信息 。 在 这 种 育 景 下 ， 数 据 可 视 化 瓯 显 得 尤为 天 键 。 





93 


-一 一 一 


oO 一 外 一 


第 4 章 


数据 分 析 的 基础 理论 





对 海量 的 数据 进行 预 处 理 和 储存 只 是 大 数据 挖掘 中 的 一 小 步 ， 距 离 我 们 获取 
重要 信息 并 应 用 在 实际 事件 中 还 有 很 多 工作 要 做 ， 其 中 数据 分 析 是 数据 挖掘 的 重 
点 内 容 。 通 过 对 数据 的 分 析 处 理 ， 不 仅 可 以 对 之 前 的 假设 进行 验证 ， 还 可 以 发 现 
一 些 潜在 的 价值 ， 这 对 以 后 的 大 数据 应 用 有 更 多 的 帮助 。 

大 数据 分 析 有 许多 不 同 的 方法 , 数据 的 内 容 不 同 , 采用 的 分 析 方 法 也 不 相同 。 
对 于 不 同 的 挖掘 目标 ， 采 用 合适 的 大 数据 分 析 技 术 ， 可 以 达到 更 好 的 数据 挖掘 
效果 。 

本 草 将 对 车 辆 大 数据 分 析 和 常用 的 几 种 方法 (相关 与 回归 分 析 、 聚 类 方法 、 分 
类 方法 、 诊 断 方法 以 及 时 间 序 列 数据 分 析 与 预测 等 ) 进行 介绍 。 

















相关 与 回归 分 析 


4.1.1 相关 分 析 


无 论 是 数据 的 摘 述 性 度量 分 析 还 是 抽样 数据 的 推 产 分 机， 都 是 针对 茶 个 单独 
现象 内 在 规律 数据 的 描述 与 分 析 ， 但 现实 中 的 现象 并 非 完全 独立 的 ， 现 象 与 现象 
之 间 往 往 在 数量 上 存在 一 定 的 相互 联系 , 这 种 相互 联系 表现 为 数量 上 的 相互 依赖 、 
相互 制约 、 相 互 影 响 。 对 这 类 存在 相互 联系 的 数据 的 分 析 ， 可 以 使 用 相关 分 析 与 
回归 分 析 方 法 。 

1. 相关 关系 

(1) 相关 关系 的 概念 

现实 世界 中 各 种 现象 之 间 有 时 会 存在 茶 种 数量 上 的 联系 ， 茶 一 个 《或 一 些 ) 
现象 发 生变 化 时 ， 男 一 现象 会 随 之 发 生变 化 。 这 种 变化 分 两 种 情形 : 一 种 是 当 某 
一 个 (或 一 些 ) 现象 发 生 数 量 上 的 变化 时 ， 另 一 个 现象 在 数量 上 的 变化 是 确定 的 ， 
变化 的 方向 及 程度 都 可 以 确定 ， 这 种 确定 性 的 数量 关系 称 为 函数 关系 ， 如 圆 的 面 
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只 与 半径 之 间 ， 自 由 落体 运动 的 时 间 与 下 降 的 高 度 之 间 等 ， 另 一 种 是 当 一 个 《或 
一 些 ) 现象 发 生 一 定量 的 变化 时 ， 另 一 个 现象 也 会 发 生 相 应 的 变化 ， 但 变化 的 县 
体 数 量 是 不 确定 的 ， 会 围绕 一 个 值 上 下 随机 波动 ， 这 种 不 确定 性 的 数量 关系 称 为 
相关 关系 (correlation )， 如 农作物 的 收获 量 与 浇 水 量 、 施 肥 量 之 则 ， 拓 民 的 消费 
文 出 与 收入 之 间 ， 某 种 商品 的 销售 量 与 销售 价格 之 间 等 。 

(2) 相关 关系 的 种 类 

GD 按 相关 关系 的 方 同 不 同 ， 分 正 相 关 与 负 相 关 。 

@ 按 相关 关系 涉及 变量 ( 因 系 ) 的 多 少 , 分 单 相关 与 复 相关 。 两 个 变量 之 间 
的 相关 关系 称 为 单 相关 ， 三 个 或 三 个 以 上 的 变量 之 间 的 相关 关系 称 为 复 相关 。 

(3) 按 相关 关系 的 形式 不 同 ， 分 线性 相关 与 非 线 性 相关 。 

由 按 相关 关系 的 密切 程度 ， 分 完全 相关 、 不 完全 相关 与 完全 不 相关 。 

(3) 相关 关系 的 描述 与 直观 判断 

判断 两 个 现象 间 有 无 相关 关系 ， 可 以 通过 相关 表 和 相关 图 进行 直观 判断 。 

(D 相关 表 。 相 关 表 是 根据 得 到 的 数据 ， 将 一 个 变量 的 观测 值 按 从 小 到 大 (或 
从 大 到 小 ) 的 顺序 排列 在 表 的 一 栏 , 将 另 一 变量 的 观测 值 对 应 排列 在 表 的 另 一 栏 ， 
由 此 形成 的 统计 表 ， 通 过 相关 表 可 以 判断 变量 之 间 相 关 的 方 癌 及 大 致 形态 。 在 观 
察 上 升 或 下 降 的 具体 形式 时 ， 可 进一步 计算 逐 期 增长 量 、 环 比 增长 速度 等 指标 ， 
以 判断 是 直线 形式 ， 还 是 抛物 线 、 指 数 曲 线 等 形式 。 

需要 注意 的 是 ， 如 果 观 测 次 数 较 多 ， 则 不 能 按 上 述 相关 表 将 所 有 数据 列 出 ， 
此 时 需要 将 数据 按 其 中 的 一 个 变量 分 组 ， 计 算 男 一 变量 的 平均 值 ， 通 过 考察 分 组 
变量 与 平均 值 的 数量 变化 关系 进行 初步 判断 。 

@) 相关 图 。 相 关 图 又 叫 散 点 图 ， 是 将 观测 到 的 两 个 现象 的 成 对 数据 ， 绘 制 在 
直角 坐标 中 得 到 的 一 系列 的 散 点 。 相 关 图 比 相关 表 可 以 更 直观 地 描述 现象 间 有 无 
相关 关系 、 相 关 的 表现 形式 以 及 相关 的 近似 密切 程度 。 

需要 注意 的 是 ， 无 论 是 相关 表 还 是 相关 图 ， 只 适合 用 来 考察 两 个 变量 之 间 的 
相关 关系 ， 不 能 用 于 考察 多 个 变量 间 的 相关 关系 。 

2. 直线 相关 系数 

相关 图 表 只 能 直观 展现 变量 之 间 的 相关 关系 ， 用 于 初步 判断 是 否 存 在 相关 关 
系 。 如 果 要 进一步 描述 相关 的 密切 程度 ， 则 需要 计算 相关 系数 。 常 用 的 反映 两 个 
变量 间 相 关 密 切 程度 的 简单 相关 系数 有 简单 线性 相关 系数 和 等 级 相关 系数 两 种 。 
其 中 ， 简 曲线 性 相关 系数 也 就 是 直线 相关 系数 ， 用 来 度量 两 个 数值 型 变量 线性 相 
关 的 密切 程度 。 

(1) 直线 相关 系数 的 计算 

直线 相关 系数 是 使 用 最 广泛 的 相关 系数 ， 一 般 情况 下 提 到 的 相关 系数 都 是 直 
线 相 关系 数 。 直 线 相关 系数 通常 采用 积 弄 法 公式 计算 ， 由 英国 统计 学 家 卡尔 。 皮 
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尔 了 还 (Karl Pearson) 最 先 提出 ， 故 叉 称 为 皮尔 进 相 关系 数 。 用 r 表示 直线 相关 系 
数 ， 目 变量 x 与 y 的 直线 相关 系数 为 
a Cov(x, y) (4_1) 
/Var(x) VVar(y) 
式 《4-1) 的 分 子 为 两 个 变量 的 协 方 震 ， 分 母 分 别 为 两 个 变量 的 标准 短 。 对 上 
式 可 进一步 简化 为 : 














-F(T -D) 


E07 Eo-7 ee 
n9_ xy >》X》 xy 

NTS yy 

(2) 直线 相关 系数 的 取 值 与 相关 密切 程度 

可 以 证 明 ， 当 相关 系数 |r | 三 1 时 : 如 果 r 大 于 0， 则 表明 现象 明正 相关 关系 ; 
如 果 r 小 于 0， 则 表明 现象 呈 负 相关 关系 。r 的 绝对 值 越 大 ， 表 明 现 象 间 的 直线 相 
关 程 度 越 高 。 当 > 的 绝对 值 为 1 时 ， 两 者 完全 相关 ， 即 为 函数 关系， 反之， 则 表 
明 现 象 间 的 直线 相关 程度 越 低 。 当 r 的 绝对 值 为 0 时 ， 说 明 两 者 完全 不 存在 直线 
相关 关系 。 一 般 来 说 ， 可 以 将 相关 系数 按 密切 程度 划分 为 以 下 等 级 ( 表 4-1): 

表 4-1 相关 系数 |r | 取 值 对 相关 程度 的 影响 

















相关 系数 |z| 的 范围 相关 程度 
17| =<0.3 无 相关 

0.3 三 |r| <<0.5 低 度 相关 

0.5 委 |7| =0.8 显著 相关 

Ir| 宇 0.8 高 度 相 关 





以 上 只 是 从 经 验 角 上 度 进 行 的 划分 ， 现 象 间 是 含 相关 还 需要 对 相关 系数 进行 显 
兰 性 检验 。 当 两 个 变量 之 间 和 直线 相关 程度 较 低 时 ， 不 一 定 表明 两 者 不 存在 相关 关 
系 ， 因 为 两 者 可 能 存在 曲线 相关 关系 。 

(3) 计算 和 运用 直线 相关 系数 需要 注意 的 问题 

计算 和 运用 相关 系数 ， 对 现象 进行 相关 分 析 ， 需 要 注意 以 下 几 氮 : 

(D 直线 相关 系数 适用 于 两 个 数值 型 变量 , 要 求 两 个 变量 服从 或 近似 服从 正 态 
分 布 。 

@ 直线 相关 系数 表明 的 是 两 个 现象 间 直 线 相 天 程度 的 高 低 ， 当 其 绝对 全 小 

















第 4 章 
数据 分 析 的 基础 理论 


时 ， 表 示 两 者 的 直线 相关 关系 不 明显 ， 但 并 不 代表 两 者 相关 关系 不 明显 ， 因 为 两 
者 可 能 存在 茶 种 形式 的 曲线 相关 。 

(3) 两 个 变量 之 间 的 直线 相关 系数 绝对 值 较 高 并 不 表明 两 者 存在 因果 关系 或 
者 存在 影响 与 被 影 响 的 天 系 。 判 断 是 否 存 在 因 末 关系， 还 需要 结合 具体 情况 进 一 
步 分 析 。 

3. 等 级 相关 系数 

等 级 相关 系数 又 称 秩 相关 系数 ， 用 来 测定 两 个 用 等 级 表示 的 变量 之 间 的 相关 
密切 程度 ， 最 初 由 统计 学 家 斯 皮尔 曼 (Charles Edward Spearman) 提出 ， 所 以 又 
称 为 斯 及 尔 曼 等 级 相关 系数 。 

(1) 等 级 相关 系数 的 计算 

等 级 相关 系数 测定 的 是 两 个 用 等 级 表示 的 变量 之 间 的 相关 密切 程度 ， 采 用 如 
下 公式 计算 : 


















































62_(R,.—R,) 
ss 
式 中 ,x 为 等 级 相关 系数 ; n 为 观测 的 次 数 ，R, 和 R, 分别 表示 变量 x 和 y 的 等 级 ， 
R, 一 R, 表示 变量 x 和 >y 之 间 的 等 级 差 。 

等 级 相关 系数 的 取 值 范围 为 -1 一 1 取 值 大 小 对 相关 密切 程度 的 说 明 与 直线 相 
天 系数 相同 。 对 于 等 级 变量 ， 可 以 证 明 Pearson 直线 相关 系数 等 于 Spearman 等 级 
相关 系数 。 

对 于 两 个 等 级 变量 ， 从 上 及 尔 进 直线 相关 系数 公式 出 友 可 以 推导 出 上 述 每 级 相 
关系 数 公 式 。 因 此 ， 对 两 个 等 级 变量 计算 Pearson 相关 系数 和 Spearman 相关 系数 
的 结果 相同 。 

(2) 计算 和 运用 等 级 相关 系数 需要 注意 的 问题 

直线 相关 系数 适用 于 两 个 数值 型 变量 ， 要 求 两 个 变量 服从 或 近似 服从 正 态 分 
布 ， 而 等 级 相关 系数 对 变量 的 分 布 不 作 要 求 ， 属 于 非 参数 统计 方法 ， 适 用 范围 更 
广 。 等 级 相关 系数 一 般 适 用 于 以 下 情形 : 

Q) 两 个 变量 的 表现 值 均 为 顺序 数据 。 

@ 一 个 变量 为 顺序 数据 ， 另 一 个 变量 为 数值 数据 ,此 时 要 将 数值 型 数据 转换 

(3) 如 果 两 个 数值 型 变量 的 分 布 未 知 ， 则 适合 计算 等 级 相关 系数 进行 分 析 ， 此 
时 要 同时 将 两 个 数值 型 数据 转换 为 等 级 。 

由 对 于 满足 计算 直线 相关 系数 条 件 的 数据 ， 也 可 计算 等 级 相关 系数 , 但 统计 
效能 要 低 一 些 。 


此 外 , 计算 等 级 相关 系数 时 , 变量 x 和 yy 之 间 的 nn 组 成 对 观测 应 分 属 n 个 不 同 


| (4—3) 
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等 级 。 如 果 排 序 出 现 相 同 的 情况 ， 则 应 取 平 均 排 位 。 

4. 相关 系数 的 显著 性 检验 

在 对 两 个 现象 进行 相关 分 析 时 ， 观 测 得 到 的 两 个 变量 的 nn 组 值 可 以 看 做 是 从 
总 体 中 随机 抽取 的 一 个 样本 ， 计 算出 来 的 相关 系数 + 是 一 个 样本 相关 系数 ， 只 是 
总 体 相 关系 数 的 一 个 估计 ， 如 果 再 次 观测 ， 则 又 可 以 得 到 另 一 个 样本 。 因 而 ， 样 
本 相关 系数 是 一 个 随机 变量 ， 依 据 样 本 计算 的 相关 系数 是 否 表明 在 总 体 范 围 内 两 
者 仍然 存在 相关 关系 呢 ? 为 此 需要 通过 显著 性 检验 加 以 推断 。 对 相关 系数 的 显著 
性 检验 分 两 类 : 一 类 是 检验 总 体 相 关系 数 是 否 为 0， 另 一 类 是 检验 总 体 相 关系 数 
是 否 等 于 某 个 不 为 0 的 特定 值 。 其 中 以 前 者 最 为 常见 。 

在 假设 检验 中 对 研究 问题 做 出 假设 时 ， 通 常 以 研究 者 想 要 支持 的 观点 作为 备 
择 假设 ， 如 果 拒 绝 了 原 假设 ， 则 这 一 结果 符合 研究 者 的 意愿 ， 在 相关 和 回归 分 析 
的 各 种 统计 检验 中 通常 表述 为 通过 了 显著 性 检验 ; 否则 表述 为 未 通过 显著 性 检验 。 

(1) 相关 系数 是 否 等 于 0 的 显著 性 检验 

对 于 总 体 相关 系数 是 否 为 0 的 检验 通常 采用 1 检验 , 适用 于 大 样本 和 小 样本 ， 
步骤 如 下 。 

Q) 需要 检验 的 假设 为 : 






































及 ,: p=0 (总 体 的 两 变量 相关 性 不 显著 )。 
有 H: pz0 (总 体 的 两 变量 相关 性 显著 )。 
@) 需要 统计 量 为 : 
rn—2 
i 二 (4—4) 
Vl—r’ 





当 太 成 立时 ， 上 述 与 x 有关 的 1 统计 量 服从 目 由 度 为 (n-2) 的 上 分 布 。 

(3) 根据 估计 的 样本 相关 系数 > 计算 出 上 值 ， 给 定 显 著 性 水 平 w ， 查 1 分 布 表 
得 临界 值 i,(n 一 2) : 若 |1 | 之 1,,, ， 则 表明 相关 系数 /显著 不 为 0， 应 否定 p=0 的 
假设 而 接受 pz 0 的 假设 ， 即 总 体 的 两 变量 显著 相关 ; 奢 |t| 达 tj,， 则 收 应 接受 
P=0 的 假设 ， 即 总 体 的 两 变量 间 相 关 性 不 显著 。 

(2) 相关 系数 是 否 等 于 某 个 值 的 显著 性 检验 

如 采 两 个 变量 相关 系数 不 为 0 的 显 间 性 检验 通过 ， 则 只 是 表明 两 者 之 间 存 在 
相关 关系 。 至 于 相关 关系 是 售 达 到 菏 种 程度 还 不 能 加 以 判断 ， 还 需要 对 相关 系数 
是 售 等 于 茶 个 值 进行 检验 。 此 时 , 上述 1 检 验方 法 不 再 适用 。 为 此 , 费 雪 (Sir Ronald 
Aylmer Fisher) 将 相关 系数 进一步 转换 为 z 统计 量 构 造 近似 正 态 分 布 加 以 检验 。 

1l, l+r 






































(4—5) 
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< 一 Mo (4-6 ) 


一 太一 ] 

在 上 述 统 计量 中 ，p 为 总 体 相 关系 数 ; n 为 样本 容量 ; m 为 变量 个 数 《〈 对 于 
直线 相关 ，m=2)。 需 要 注意 的 是 ， 上 述 检验 要 求 为 大 样本 。 

5. 复 相 关 与 偏 相关 

直线 相关 系数 和 等 级 相关 系数 是 对 两 个 变量 呈 线 性 相关 时 索 密 程度 的 度量 。 
如 果 两 个 变量 呈 非 线性 相关 或 相关 关系 涉及 多 个 变量 ， 则 不 能 用 上 述 相 关系 数 对 
相关 的 紧密 程度 进行 上 度量 。 

(1) 复 相 关系 数 

复 相 关系 数 古 反映 因 变 量 与 影响 它 的 多 个 自 变 量 之 间 相 关 紧 密 程 度 的 指标 ， 
用 RR 表示。 如 浇 水 量 〈( x ) 和 施肥 量 ( x, ) 同时 影响 作物 产量 (y)， 两 个 目 变 量 
作为 一 个 整体 与 产量 之 间 相 关 的 紧密 程度 如 何 ， 束 需要 用 复 相关 系数 度量 。 

复 相 关系 数 的 计算 较为 肪 烦 ， 通 第 不 在 相关 分 析 中 直接 计算 其 值 ， 而 是 利用 
回归 分 析 中 的 可 决 系数 R* 转换。 因为 各 个 自 变 量 对 因 变 量 的 影响 方向 可 能 不 同 ， 
所 以 复 相关 系数 不 再 区 分 特写 ， 将 可 决 系数 取 算术 平方 根 即 为 复 相关 系数 。 复 相 
关系 数 的 取 值 为 0 一 1， 越 接近 1， 表 明 所 有 目 变 量 整 体 与 因 变 量 之 间 的 相关 关系 
越 紧密 。 

在 回归 分 析 中 ， 可 诀 系 数 尺 代表 了 模型 的 拟 合 优 度 ， 而 模型 的 拟 合 优 度 即 表 
明 所 有 目 变 量 整体 对 因 变 量 的 解释 程度 。 相 关 关 系 越 紧密 ， 解 释 程 度 越 高 ， 尺 就 
越 接近 1。 对 于 可 决 系数 的 计算 将 在 回归 分 析 中 加 以 介绍 ， 直 线 相关 系数 可 以 看 
做 是 复 相 关系 数 的 特例 。 

(2) 俩 相关 系数 

在 复 相 关中 ， 不 仅 要 研究 多 个 目 变 量 与 因 变 量 之 间 的 共同 依存 关系 ， 还 要 进 
一 步 研究 每 一 个 上 自 变 量 与 因 变 量 之 间 的 单独 依存 关系 。 仿 相关 系数 又 称 为 滔 相 关 
系数 ， 束 是 假定 在 其 他 目 变 量 不 变 时 ， 菏 个 目 变 量 与 因 变 量 之 间 相 关 关 系 的 紧密 
程度 。 因 变量 y 与 目 变 量 % 之 间 的 偶 相 关系 数 记 为 心 ， 侦 相关 系数 的 取 值 为 -1 一 1， 
其 绝对 值 越 大 ， 表 明 该 目 变 量 与 因 变 量 之 间 的 关系 越 紧 密 。 显 然 ， 偶 相关 系数 的 
个 数 等 于 日 变量 的 个 数 ， 利 用 偏 相 天 系数 可 以 判别 各 个 日 变量 与 因 变 量 之 间 紧 密 
程度 的 主 次 关系 。 

偏 相 关系 数 的 计算 也 较为 厂 烦 ， 在 相关 分 析 中 通常 不 直接 计算 其 值 。 因 为 回 
归 分 析 中 计算 与 检验 回归 系数 的 意义 已 经 涵盖 了 仿 相 关系 数 的 意义 ， 并 有 旦 其 值 与 
回归 系数 有 关 ， 所 以 在 实际 研究 中 较 少 使 用 。 此 处 对 其 计算 略 去 。 


4.1.2 一 元 线性 回归 分 析 
相关 分 析 的 主要 目的 是 对 变量 间 存 在 的 数量 关系 的 密切 程度 进行 测度 。 回 归 
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分 析 (regression〉 是 在 相关 分 析 的 基础 上 ， 构 建 变量 间 数 量 关 系 的 具体 模型 ， 并 
对 模型 进行 各 种 检验 的 分 析 方 法 。 

与 相关 分 析 不 同 ， 回 归 分 析 需 要 确定 日 变量 (或 解释 变量 ) 与 因 变 量 ( 或 被 
解释 变量 )。 因 变量 为 被 影响 的 变量 ， 目 变量 为 影响 变量 。 因 变量 只 有 一 个 ， 而 自 
变量 可 以 有 多 个 。 对 于 只 有 一 个 自 变 量 的 回归 分 析 ， 称 为 一 元 回归 ; 有 多 个 日 变 
量 的 回归 分 析 ， 则 称 为 多 元 回归 。 根 据 变量 间 相 关 的 形式 不 同 ， 又 可 分 为 线性 回 
归 与 非 线 性 回归 。 回 归 分 析 的 其 体内 容 包括 : 

(DD 确定 模型 的 形式 。 

@ 利用 样本 数据 对 模型 的 参数 进行 估计 。 

(3) 对 模型 的 拟 合 优 度 及 变量 的 显著 性 进行 检验 。 

由 利用 模型 进行 预测 。 

1. 一 元 线性 回归 模型 

(1) 一 元 线性 回归 模型 的 形式 

在 回归 分 析 中 ， 通 音 用 x 表 示 目 变量 ， 用 表示 因 变 量 。 回 归 模 型 
(regression model，RM) 是 用 数学 模型 摘 述 目 变 量 与 因 变 量 之 间 的 数量 关系 。 
一 元 线性 回归 是 一 个 自 变 量 与 因 变 量 之 则 线性 关系 的 回归 ， 又 称 为 直线 回归 ， 
是 回归 分 析 中 最 基本 的 形式 。 直 线 回归 与 直线 相关 对 应 ， 一 元 线性 回归 模型 的 
一 般 表 达 形 式 为 







































































y=Q+phx+e, (4-7) 


式 中 ，z 为 和 目 变量 ;yy 为 因 变 量 ; 8 表示 随机 误 甜 ， 是 除 自 变量 xx 以 外 所 有 其 他 
影响 因素 的 总 和 ; w 和 8 为 回归 参数 ， 是 常数 。 

模型 表示 的 意义 为 : 对 于 目 变 量 x 的 一 个 取 值 x ， 因 变量 > 的 值 > 由 可 确定 
的 部 分 (w+ Bx ) 和 不 可 确定 的 随机 因素 & 共同 决定 ， 不 可 确定 的 因素 是 随机 
的 ， 其 影响 的 大 小 和 方向 均 不 能 确定 ， 但 存在 一 定 的 分 布 规律 。 

(2) 一 元 线性 回归 模型 的 基本 假定 

为 保证 回归 分 析 的 有 效 性 ， 同 时 作为 模型 检验 的 前 提 ， 对 于 一 元 线性 回归 模 
型 通常 有 以 下 假定 : 

(D 目 变 量 x 为 可 控 的 变量 , 即 非 随机 变量 。 因 为 回归 分 析 主 要 是 考察 因 变 量 
yy 如何 受 目 变 量 * 的 有 影响， 所 以 假定 x 的 取 值 是 可 以 确定 的 。&, 为 随机 变量 ， 这 
意味 着 因 变 量 也 为 随机 变量 。 

@ 随机 变量 的 均值 为 0。 对 于 x 的 每 一 个 取 值 x ， 随 机 变量 2 的 均值 都 
为 0。 

(3) 随机 变量 8 具有 辣 方差 ,对 于 x 的 每 一 个 取 值 x ,随机 变量 g 的 方差 相同 ， 
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均 为 某 个 常数 o  。 这 意味 着 因 变 量 也 具有 同方 差 。 

4) 随机 变量 & 无 自 相 关 ， 即 相互 独立 。 

(5) 随机 变量 与 自 变 量 不 相关 。 

G) 随机 变量 2 为 服从 均值 为 0、 方 兰 为 的 正 态 分 布 。 由 假设 内，y 也 服 
从 正 态 分 布 。 

满足 以 上 基本 假定 的 线性 回归 模型 又 称 为 经 典 线性 回归 模型 。 

对 于 一 元 线性 回归 模型 ， 在 给 定 x 的 取信 时 ，y, 的 值 虽 不 能 确定 ， 但 其 均 
值 是 确定 的 ， 即 gg+ Bx,。 将 其 称 为 回归 方程 或 回归 消 数 (regression function 
RF)， 妈 : 

















E(y,/x)=0+ Px, (4—8) 

(3) 总 体 回 归 模 型 (函数 ) 与 样本 回归 模型 (函数 ) 

对 于 总 体 而 言 ，x 的 可 能 取 值 有 很 多 ， 每 一 个 x 的 取 值 x ， 可 以 观测 到 对 应 
的 y, 值 理论 上 有 无 穷 个 。 但 研究 实际 问题 时 ， 某 个 x 的 取 值 下 对 y, 值 的 观测 往往 
只 有 几 次 甚至 一 次 ， 并 且 不 是 zx 的 所 有 可 能 取 值 都 会 进行 观测 ， 总 体 可 能 的 取 值 
无 法 穷尽 ， 因 而 总 体 回 归 函 数 (Population Regression Function，PRF) 和 回归 模 
型 (Population Regression Model，PRM) 是 未 知 的 。 实 际 研 究 时 ， 观 测 到 的 知 干 
组 x 和 y 的 值 只 是 总 体 中 的 一 个 样本 ， 对 应 于 样本 数据 的 回归 函数 和 回归 模型 称 
为 样本 回归 函数 (Sample Regression Function，SRF) 和 样本 回归 模型 (Sample 
Regression Model，SRM)。 样 本 回归 观 数 和 回归 模型 分 别 用 下 式 表 示 : 


' G+ px 




















、 (4—9) 
y,=Q+ Px,+e, 

式 中 ，Q 和 分别 表示 样本 回归 模型 的 参数 ，e 表示 随机 误差 。 

需要 注意 的 是 ， 尽 总 体 回 归 函 数 未 知 ， 但 它 是 确定 的 ， 并 且 是 唯一 的 。 
未 知 的 原因 是 无 法 得 到 总 体 的 全 部 数据 ， 并 不 代表 总 体 回 归 函 数 不 存 在 。 回 归 
分 析 的 任务 是 用 样本 回归 也 数 估 计 总 体 回 归 函 数 。 样 本 回归 函数 因 样 本 的 不 同 
而 不 同 , 也 就 是 说 和 有 属于 随机 变量 , 但 对 于 一 个 确定 的 样本 , 参数 和 户 是 
确定 的 。 

2. 一 元 线性 回归 模型 的 参数 估计 

(1) 普通 最 小 二 乘法 估计 参数 的 原理 

在 一 元 线性 回归 分 析 中 ， 对 于 确定 的 样本 ， 使 用 不 同 的 估计 方法 可 以 得 到 不 
同 的 样本 回归 冰 数 。 在 满足 经 典 假设 的 情况 下 ， 使 用 普通 最 小 二 乘法 (Ordinary 
Least Squares，OLS) 估计 的 结果 是 最 优 的 ， 其 原理 如 下 所 示 。 

对 于 已 经 观测 到 的 一 组 样本 观测 值 (x ，y ) (i=1，2,，…，n)， 将 其 描绘 成 
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直角 坐标 中 的 各 个 若 点 ， 要 求 样本 回归 函数 尽 可 能 


好 地 拟 合 这 组 值 ， 即 回归 直线 尽 可 能 地 从 这 些 点 中 
间 罕 过 ， 如 图 4-1 所 示 。 当 x 取 x 时, y 的 实际 观测 








值 y, 与 估计 值 之 间 存 在 偏差 e。 偏 差 有 正 有 人 负 ， 每 





个 观测 点 的 偏差 直接 相 加 会 相互 抵消 ， 因 而 取 偏 差 ” 
的 平方 和 3 e? 作为 衡量 所 有 观测 点 偏离 程度 的 标 
准 。 显 然 ，3 e? 由 参数 和 及 的 取 值 决定 。 当 偏 























差 的 平方 和 最 小 时 ， 回 归 直 线 最 好 地 拟 合 了 所 有 的 


观测 点 。 根 据 求 极 值 的 原理 ， 使 》e” 最 小 的 参数 图 4-1 最 小 二 乘 原理 


应 满足 : 





2 ,2 


0. -22> (wy-C-Dx)x=0 





整理 得 到 以 下 方程 组 : 
> y =n0+ PO x 
> 六 >》 二 D》 x 
其 中 ,nn 为 观测 得 到 的 数据 点 ， 即 样本 容量 。 求 解 上 述 方程 组 得 : 
nD _ xy, — > .x0 
和 -Ox) 
久之 五 六 太一 放大 六 3 
nx 一 (> 
上 述 求解 的 参数 通 第 表示 为 
pb nD yy — > .x0y, 
n> -0_ x) 
2 


n 


> 





0 = 


(2) 直线 回归 与 直线 相关 的 天 系 





可 以 证 明 回 归 方 程 中 的 回归 系数 与 直线 相关 系数 之 间 存 在 如 下 关系 : 


八 


CO 
记 = 7 一 
O 


x 
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首先 , 相关 系数 与 目 变 量 前 的 回归 系数 得 写 相同 。 在 相关 分 析 中 己 经 了 解 到 ， 
如 有 条 两 个 变量 有 同方 网 变化 关系 ， 则 其 相关 系数 大 于 0， 为 正 相 关 。 因 而 回归 
方程 中 自 变量 前 的 回归 系数 必然 大 于 0， 上 述 关系 式 也 正 说 明了 相关 与 回归 是 
统一 的 。 

其 次 ， 从 普通 最 小 二 乘法 求解 回归 参数 的 原理 可 以 看 出 ， 变 量 x 和 y 之 间 的 
散 点 分 布 无 论 呈 何 种 情况 ， 用 普通 最 小 二 乘法 都 能 求解 出 唯一 的 一 条 直线 来 描述 
两 者 的 数量 关系 。 当 艇 点 分 布 越 近似 直线 时 , 相关 系数 的 绝对 值 越 接 近 1 ( 越 大 )， 
此 时 , 回归 和 直线 束 越 好 地 拟 合 了 各 个 点 ,各 实际 值 与 拟 合 值 的 离 到 平方 和 束 越 小 ， 
或 者 说 拟 合 的 精度 越 咒 。 这 一 关系 可 用 下 式 表达 : 























0,, =(1 一 广 )0， (4—15) 
式 中 ，o, 为 剩余 方 着 ， 代 表 了 拟 合 的 精度 。 其 计算 式 如 下 : 
0 =》 (7 一念 /n (4—16) 


(3) 一 元 线性 回归 模型 参数 ‘OLS) 估计 的 分 布 特征 与 性 质 
总 体 回 归 模 型 的 参数 只 能 通过 样本 观测 值 估计 ， ee 是 随 
样本 变动 的 随机 变量 ， 采 用 普通 最 小 二 乘 估 计 得 到 的 样本 参数 是 否 可 靠 ， 还 需要 
进行 假设 检验 ， 因 而 需要 知道 样本 回归 参数 的 分 布 特征 。 
@ 样本 回归 参数 和 和 服从 正 态 分 布 。 根 据 普通 最 小 二 乘 估计 的 结果 有 
A nD xy, — > .x0y, 
ne -Ox) 
_ 2 -7 —D) 
>》 (和 一 
_ 20 -Dy -2 7) ee 
2 -7) 
2 GD (让 三 于) 
SH) Vw” 
= 2 ky, 
Pp ey > 
Nn Nn 
=y-px 


根据 模型 假设 ， 自 变量 x 为 可 控 变 量 ， 是 可 以 事先 设 定 的 一 组 固定 的 值 ， 因 
而 大 为 一 组 常数 ， 且 > 天 =0，》> kx=1 可 见 ，Q 和 具有 线性 ， 都 是 y 的 线性 








(4—18) 
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组 合 。 因 为 y, 与 模型 中 的 随机 变量 e 同 分 布 ， 所 以 CQ 和 户 都 是 服从 正 态 分 布 的 随 
机 变量 。 

@ 样本 回归 参数 GQ 入 的 期 望 分 别 等 于 总 体 回 归 参 数 g 和 6， 证 明 过 程 
如 下 : 

De >》 大 一 Kk(g+ Bx +€,) =CQ >》 大 +D>》 kx + > 大 2 =D+ > ke 
E(P)=E(B+) ke)=B+ > kE(e)=p 
E(@)=E(y- px)=E(y)-xE(P)=y-px=0 
(4—19) 





这 表明 ， 回 归 系 数 的 最 小 二 乘 估计 是 无 侦 佑 计 。 
@) 样本 回归 参数 和 的 方差 分 别 为 


(4—20) 


(4—21) 





上 述 公 式 的 推导 过 程 略 去 。 

可 以 证 明 ， 在 所 有 的 线性 无 侦 佑 计 中 ， 回 归 系 数 的 最 小 二 乘 估计 具有 最 小 
方 产 。 

由 随机 误工 项 的 方差 o 的 估计 。 在 回归 参数 的 方 莽 和 标准 兰 公 式 中 ，a -为 
总 体 回归 模型 中 随机 误差 项 e 的 方才 ，a-” 是 无 法 观测 得 到 的 , 但 可 以 由 样本 回归 
模型 中 随机 误差 项 进行 信 计 。 





2 
之 (4-22 ) 


可 以 证 明 , 上 述 估计 量 是 o 的 一 个 无 仿 估 计 。 式 中 为 观测 值 的 个 数 ,(n-2) 
为 目 由 度 。 

3. 一 元 线性 回归 模型 的 拟 合 优 度 与 标准 误差 

基于 一 个 特定 的 观测 样本 数据 ， 尺 管 由 普通 最 小 二 乘 方 法 估计 出 的 样本 回归 
直线 是 所 有 和 朋 线 中 最 优 的 一 条 ， 但 直线 与 各 观测 点 忌 存在 或 正 或 负 的 仿 离 。 这 种 
侦 离 程度 的 大 小 说 明了 样本 回归 直线 对 样本 数据 拟 合 的 优 劣 程度 。 回 归 方 程 拟 合 
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优 度 的 度量 使 用 可 诀 系 数 指标 。 

(1) 可 决 系数 

可 雇 系 数 (R-Square) 又 称 为 判定 系数 ， 其 度量 回归 方程 拟 合 优 度 的 基本 原 
理 是 : 以 所 有 yy 的 均值 3 作为 偏离 的 上 度量 基准 ， 每 一 个 实际 观测 值 y， 对 均值 的 
偏离 可 以 分 解 为 两 部 分 ， 如 图 4-2 所 示 。 





人 
八 八 
y=Q+ Px 




















图 4-2 离 差 分 解 图 
y;—y=(Y—y)+(y,— 7y.) (4-23 ) 








式 中 ， 等 号 后 一 部 分 为 因 变 量 的 实际 观测 值 与 回归 估计 值 的 人 往 关 ， 将 上 述 人 往 关 分 
es 
2 -7 = Sy) + -SY + .2S 7)(y,—S) 
> 2( 广 一刀 (y —$)=0 
DG-7) = + -$Y 
(一 SST; > (六 一 SSR > (六 一 六 六 SSE 
在 上 述 离 甜 平方 和 分 解 式 中 ， 左 边 部 分 称 为 总 离 关 平方 和 (SST)， 可 以 分 解 
为 由 回归 直线 解释 的 部 分 回归 平方 和 (SSR) 与 回归 直线 不 能 解释 的 部 分 残 差 平 
方 和 (SSE)。 
对 于 一 个 观测 样本 ， 总 离 天 平方 和 是 既定 的 ， 对 其 拟 合 不 同 的 直线 会 有 不 同 
的 回归 平方 和 与 残 老 平方 和 。 直 线 拟 合 越 好 ， 各 观测 点 与 直线 越 靠 近 ， 此 时 残 和 
平方 和 部 分 束 越 小 ， 回 归 平 方 和 越 大 ， 反 之 ， 和 直线 拟 合 越 不 好 ， 各 观测 点 离 直 线 
越 远 ， 此 时 残 差 平方 和 部 分 就 越 大 ， 回 归 平 方 和 越 小 。 将 回归 平方 和 与 总 离 差 平 
方 和 之 比 称 为 可 决 系数 ， 用 R? 表示， 则 
0 7 二 1 之 0 一 光 本 
0-7) >.0G; -7 








(4—24) 
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显然 ， 回 归 平 方 和 占 总 离 关 平方 和 比重 越 大 或 残 差 平方 和 占 总 离 关 平方 和 比 
重 越 小 ，R* 越 大 ， 回 归 方 程 拟 合 得 越 优 。 

(2) 可 决 系数 的 特点 及 其 与 相关 系数 间 的 天 系 

(D 可 决 系数 非 负 。 

@ 可 决 系数 的 取 值 范 围 为 0 乏 RR 过 1。 

(3) 与 回归 参数 一 样 ， 不 同 的 样本 有 不 同 的 可 诀 系 数 ， 因 而 尺 为 随机 变量 。 

4) 可 决 系数 在 数值 上 等 于 直线 相关 系数 的 平方 ， 即 R =r7。 

可 决 系数 与 相关 系数 之 间 存 在 数量 上 的 联系 。 相 关系 数 表明 两 个 变量 数量 上 
联系 的 紧密 程度 ， 其 绝对 值 越 接 近 1， 表 明 联 系 越 案 密 ， 其 人 符 写 表明 了 数量 上 的 
依存 方 回 。 可 决 系数 反映 的 古 模型 对 观测 值 的 拟 合 程度 。 两 个 变量 无 论 数 量 联 系 
的 方 回 如 何 ， 相 关 密 切 程度 越 品 ， 模 型 会 拟 合 得 越 好 ， 因 而 可 决 系数 不 用 区 分 方 
器 。 可 决 系数 与 相关 系数 的 区 别 还 在 于 :; 相关 系数 针对 变量 而 言 ， 不 用 区 分 变量 
的 因果 关系 或 影响 与 被 影响 的 关系 ; 可 决 系数 针对 回归 模型 而 言 ， 需 要 明确 目 变 
量 与 因 变 量 。 

(3) 一 元 线性 回归 模型 的 标准 误差 

得 出 回归 方程 后 ， 还 要 对 方程 的 拟 合 精 度 或 代表 性 进行 度量 ， 统 计 和 学 中 信 助 
估计 标准 误 友 来 说 明 回归 方程 的 代表 性 ， 一 元 线性 回归 中 用 5, 表示 标准 误差 。 

估计 标准 误 兰 是 对 总 体 回归 模型 的 随机 误差 项 的 标准 兰 a 的 估计 ， 它 反映 
了 实际 观测 值 侦 离 回归 直线 的 程度 , 用 来 预测 y 值 的 置信 区 间 对 周围 的 分 散 状况 。 佑 
计 标 准 误 关 越 大 ,说明 回归 方程 的 代表 性 越 寺 ,或 者 说 回归 方程 的 拟 合 精度 越 低 。 

由 于 总 体 回 归 模 型 中 随机 误差 项 & 的 方差 0 无 法 观测 得 到 , 只 能 用 样本 估计 
量 和 对 其 进行 估计 ， 因 而 估计 标准 误差 就 是 残 差 平方 和 的 均 方 根 ， 公 式 为 











一 一 一 





























2 
9g = 9 (4_26) 


7 一 2 
在 估计 标准 误差 公式 中 , 根 式 中 的 分 母 不 是 n, 而 是 除 以 n-2, 表示 其 自由 度 。 
4. 一 元 线性 回归 模型 中 变量 的 显著 性 检验 
通过 回归 得 到 的 模型 ， 除 了 对 模型 的 拟 合 优 度 进行 度量 外 ， 还 需要 分 别 对 回 
归 系 数 的 显著 性 及 回归 方程 的 显著 性 进行 检验 。 回 归 系 数 的 显著 性 检验 主要 是 检 
验 每 一 个 自 变 量 对 因 变 量 的 影响 是 否 显 著 ; 回归 方程 的 显著 性 检验 主要 是 检验 所 
有 上 自 变 量 的 线性 组 合 整 体 上 对 因 变 量 的 影响 是 否 显 著 。 由 于 一 元 线性 回归 中 只 有 
一 个 自 变 量 ， 因 而 变量 的 显著 性 检验 和 回归 方程 的 显著 性 检验 是 等 价 的 ， 即 两 者 
要 么 同时 通过 检验 ， 要 么 都 不 能 通过 检验 。 本 节 中 主要 介绍 变量 的 显著 性 检验 ， 
回归 方程 的 显著 性 检验 将 在 多 元 线性 回归 中 进行 介绍 。 
一 元 线性 回归 中 ， 回 归 系 数 @ 和 的 检验 方法 相同 ， 但 对 自 变 量 前 面 的 系数 
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的 检验 更 有 意义 。 因 而 回归 系数 的 显著 性 检验 通常 是 指 变量 的 显 阁 性 检验 。 
(1) 回归 系数 检验 的 步 又 
QW 提出 假设 。 在 线性 回归 中 ， 人 们 更 关心 的 是 目 变 量 对 因 变 量 是 售 存 在 显 考 
性 影响 ， 即 回归 系数 是 否 为 0， 这 比 检验 回归 系数 是 否 等 于 某 个 值 更 有 意义 。 因 
而 做 出 的 假设 一 般 为 





























Hi:p=s0 Hi:p#0 
如 果 不 拒 绝 原 假设 ， 则 表明 目 变 量 x 对 因 变 量 > 不 存在 显著 的 线性 有 影响， 如 
果 拒 绝 原 假设 ， 则 表明 x 对 yy 存在 显著 的 线性 影响 。 
@) 检验 统计 量 。 在 前 面 介 绍 回归 系数 的 分 布 特征 时 ， 已 经 知道 回归 系数 服从 
正 态 分 布 。 由 于 总 体 回归 模型 中 随机 误差 项 e 的 方差 o 无 法 观测 得 到 ， 只 能 用 样 
本 佑 计量 G 代替 ， 此 时 要 检验 的 统计 量 服从 z 分 布 : 


八 





本 二 t(n—2) (4—27) 
SO 

@) 设 定 显著 性 水 平 w ,确定 临界 值 。 上 述 假设 属于 双 侧 检验 ， 查 表 可 得 临界 
值 为 fj,(n 一 2) 。 

由 判断 并 得 出 结论 。 当 原 假 设 成 六 时， 计算 的 1 统计 量 值 如 果 落 在 接受 域 ， 
则 不 拒绝 原 假设 B=0， 表 明 目 变 量 对 因 变 量 无 显 蔷 线性 影响 ， 如 有 果 1 统计 量 的 值 
洲 在 拒绝 域 ， 则 拒绝 原 假 设 B=0， 表 明 目 变 量 对 因 变 量 存在 显著 的 线性 影响 。 

(2) 回归 系数 的 P 值 检验 

上 面 对 回归 系数 的 检验 方法 是 先 计算 出 t 值 ， 然 后 与 给 定 的 显著 性 水 平 下 查 
表 得 到 的 临界 值 比较 ， 进 而 对 假设 作出 判断 。 对 回归 系数 的 显著 性 检验 也 可 用 P 
值 决 策 判 断 ， 其 结论 与 上 值 检 验 相 同 。 

P 值 检验 的 方法 是 , 在 计算 出 上 值 后 , 由 上 分 布 表 可 以 得 到 大 于 上 值 的 概率 已 
将 其 与 给 定 的 显著 性 水 平 w 进行 比较 。 显 然 ， 当 PP 值 大 于 wx/2 时 ， 不 能 拒绝 原 假 
设 ， 表 明 自 变量 对 因 变 量 不 存在 显著 的 线性 影响 ， 当 P 值 小 于 wx/2 时 ， 拒 绝 原 假 
设 ， 表 明 上 自 变量 对 因 变 量 存在 显著 的 线性 影响 。 

5. 一 元 线性 回归 模型 的 预测 

回归 分 析 的 最 终 目 的 是 要 利用 得 到 的 回归 模型 进行 预测 。 当 建立 的 回归 方程 
通过 了 各 种 统计 检验 和 经 济 意义 上 的 检验 时 ， 就 可 以 利用 模型 对 因 变 量 进 行 有 效 
预测 。 

(1 ) 因 变 量 的 点 值 预测 

点 值 预 测 就 是 将 自 变 量 的 一 个 值 x 代入 回归 方程 中 计算 出 因 变 量 各 的 值 ， 以 
此 作为 的 一 个 点 估计 值 ， 即 

































































$= G+Bx, (4-28) 
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显然 ， 根 据 回归 方程 与 回归 模型 的 关系 ， 和 只 是 ,的 均值 的 一 个 点 估计。 

(2) 因 变量 的 区 间 预 测 

对 因 变量 进行 区 间 预 测 就 是 给 出 自 变量 的 一 个 值 ， 在 一 定 的 概率 保证 下 对 因 
变量 的 可 能 取 值 范 围 进行 预测 佑 计 。 因 变量 的 区 间 预 测 分 两 种 ， 一 种 是 对 因 变 量 
值 y, 的 区 间 估计 ， 另 一 种 是 对 因 变 量 均值 E(y) 的 区 间 估计 。 因 变量 的 区 间 预 测 
通常 是 指 对 因 变量 个 值 的 区 间 预 测 。 

QD 因 变 量 均值 的 区 间 估计 。 由 于 样本 是 随机 选取 的 , 样本 回归 方程 的 参数 是 
随 样本 变化 的 随机 变量 ， 因 而 名 也 是 一 个 随机 变量 ， 并 且 服从 正 态 分 布 ， 根 据 回 
归 模型 的 假设 可 以 得 出 

E($)=E(G+ Pn)= + Bn 
Var($,)=E[ (G+ Px)-(a+ Brn)| 


=E(G-a) +E[%(B-p)]| -EL2C-o8- 有 | “+ 


-oo 1 (0 —X) 
n 2 -x) 


在 Ca 未知 的 情况 下 , 用 样本 估计 量 信 代 人 将， 标准 化 后 服从 上 自由 度 为 (n-2) 
的 :上 分布。 在 给 定 显著 性 水 平 w 下 ， 为 的 区 间 佑 计 为 


es (wx) 
0 gO “天 _xy 

+ Wx) 一 元 ) 
yo Ft 0 Tay 一 元 )? 


(2 因 变 量 值 的 区 间 估 计 。 给 定 目 变量 的 一 个 取 值 x 时， 因 变 量 值 为 y。 同 
样 是 属于 服从 正 态 分 布 的 随机 变量 ， 根 据 模型 假设 容易 得 出 
yo yo ~ N(g+Bx,0° ) 


1 (x —x)” (4-31) 
(7 — y0) "oo rl ] 


在 ca 未知 的 情况 下 , 用 样本 估计 量 售 代 丛 上述 统计 量 服从 上 自由 度 为 (n-2) 
的 71 分布。 在 给 定 显 车 性 水 平 g 下 ，y, 的 值 的 区 间 估 计 为 


(= (Xo Xx) 
为 一 DG 1+= + 二 ,+ 0 Te 十 一 (4—32) 
; | 人 | 


(3) 因 变 量 区 间 估 计 精 度 的 影响 因素 。 对 比 两 种 估计 可 以 看 出 , 在 同样 的 显著 
性 水 平 下 ， 由 样本 估计 因 变量 值 的 区 间 要 比 因 变 量 均值 的 区 间 宽 。 在 给 定 不 同 的 




















(4—30) 
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目 变 量 取 值 对 因 变 量 进行 区 间 佑 计时, 区间 宽度 不 同 , 如 图 4-3 所 示 , 当 = 无 时 ， 
估计 区 间 最 案 。 也 束 是 说 ， 利 用 回归 方程 进行 预测 时 ，x 在 其 均值 附近 取 值 ， 对 
因 变 量 的 区 间 预 测 精度 最 高 。 





全 
1 








| 

| .. 

全 

| 2 
2 上 

| 

| 

| 

| 

| 

| 


均值 置信 区 间 





| 
x 





图 4-3 ”回归 预测 星 信 带 


此 外 ， 预 测 区 间 还 与 样本 容量 有 关 ， 样 本 容量 n 越 大 ， 因 变量 值 或 均值 估计 
区 间 公 式 中 根 号 内 的 部 分 越 小 ， 区 间 越 罕 ， 此 时 会 提高 预测 精度 。 


4.1.3 多 元 线性 回归 分 析 


在 一 元 线性 回归 分 析 中 ， 假 定 因 变量 只 受 一 个 自 变 量 的 影响 ， 然 而 研究 许多 
现实 问题 时 ， 研 究 对 象 往往 受到 多 个 目 变 量 的 影响 ， 比 如 : 公司 股价 可 以 由 每 股 
多利 、 每 股 净 资 产 等 众多 变量 解释 ; 作物 产量 受 施 肥 量 、 浇 水 量 、 耕 作 深 上 度 等 因 
系 的 影响 ， 产 品 的 销量 不 仅 受 销售 价格 的 影响 ， 还 受 消费 者 的 收入 水 平 、 广 告 宣 
传 费用 、 蔡 代 障 品 的 价格 等 多 个 因素 的 影响 。 因 此 ， 研 究 一 个 因 变 量 与 多 个 目 变 
量 之 则 的 数量 关系 需要 用 到 多 元 线性 回归 分 析 。 多 元 线性 回归 分 析 是 指 因 变量 表 
现 为 两 个 或 两 个 以 上 上 自 变量 的 线性 组 合 关 系 ， 多 元 线性 回归 分 析 与 一 元 线性 回归 
分 析 的 基本 原理 和 方法 类 似 。 

1. 多 元 线性 回归 模型 

(1) 多 元 线性 回归 的 基本 模型 

多 元 线性 回归 模型 与 一 元 线性 回归 模型 相似 , 只 是 目 变 量 由 一 个 增加 到 多 个 。 
设 因 变量 y 表现 为 k 个 自 变 量 x ，x,，…，x, 的 线性 组 合 ， 则 多 元 线性 回归 的 基 
本 模型 可 以 表示 为 
































y=B+Bx,+Bx, + +B x +e (d=1,2,.…,n) (4-33 ) 
在 上 述 模型 中 ,Ek 为 自 变 量 的 个 数 ，B，G=0，1，2，…，k) 为 模型 参数 ，& 表 
示 随 机 误差 项 ，(C x ，%,，…，X ) 为 对 总 体 的 第 i 次 观测 。 





与 一 元 线性 回归 类 似 ， 多 元 线性 回归 方程 为 
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E(y; / Xi, Xi , Xi) = + Bn + Bx + 十 记 4 (4=34) 

在 多 元 线性 回归 模型 中 ， 系 数 Di; 表示 在 其 他 目 变 量 不 变 时 ， 第 /7 个 目 变 量变 

化 一 个 单位 对 因 变 量 均值 的 影响 ， 又 称 俩 回归 系数 。 与 一 元 线性 回归 模型 一 样 ， 

由 于 总 体 回归 方程 未 知 ， 只 能 利用 样本 进行 佑 计 ， 则 样本 回归 方程 和 样本 回归 模 
型 分 别 表示 为 


y, = +pBx, 和 十 二 局 和 (4—35) 
i 二 + 局 + Pn t+ Bn te, (4—36) 


在 上 述 模型 和 方程 中 ， 户 OG=0，1，2，…，Kk) 是 总 体 回归 参数 8 的 估计 。 
(2) 多 元 线性 回归 模型 的 矩阵 表示 
对 于 总 体 的 n 次 观测 ， 存 在 n 个 相同 参数 的 回归 方程 组 


)1 = 用 pb se Fe 十 如 


> = /pp DX ey PD + é, 





(4—37) 
= 局 + 和， 
将 上 述 方 程 组 用 和 矩阵 表达 
Y=Xp+ie (4—38) 
其 中 ， 
i ] xX %i pt pb a 
y = > t ] 2 222 机 ,B= A 2 6C2 
i 1 A A Xn pb, Cn 
样本 回归 模型 和 回归 方程 的 矩阵 表达 为 
Fa (4-39) 
Y=Xp 
其 中 ， 因 变量 均值 回 量 、 回 归 系 数 癌 量 和 残 兰 问 量 分 别 为 
1 pb 
y= | B= | 
)», p, 


(3) 多 元 线性 回归 模型 的 假定 
与 一 元 线性 回归 模型 相 比 ， 多 元 线性 回归 模型 除了 有 随机 项 服从 正 态 分 布 、 
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随机 项 零 均 值 、 随 机 项 同方 和 过、 随机 项 无 自 相 关 、 随 机 项 与 目 变 量 不 相关 的 假定 
外 ， 还 假定 各 目 变 量 之 间 不 存在 线性 相关 。 
2. 多 元 线性 回归 模型 的 参数 估计 
(1) 多 元 线性 回归 参数 的 最 小 二 乘 估计 
在 一 元 线性 回归 参数 的 估计 中 ， 对 于 目 变 量 和 因 变 量 的 观测 值 可 以 借助 二 维 
平面 坐标 的 散 点 表现 。 但 在 多 元 线性 回归 中 ， 这 些 点 不 在 一 个 平面 上 ， 需 要 借助 
多 维 空间 的 “上 点” 描述。 尽管 如 此 ， 多 元 线性 回归 参数 的 估计 原理 与 一 元 线性 回 
归 相 同 ， 也 是 采用 残 关 平方 和 最 小 准则 即 普通 最 小 二 乘法 佑 计 模 型 参数 。 
则 本 -0 加 全 n 组 观测 值 的 样本 (Xi 》 其 中 是 一 ] 2,3，……,72; 7 二 1,2,3,.……,k 
残 甜 平方 和 为 
>》 er = 2 ») 2 -A — Pn -Pn 一 (4—40) 
使 残 甜 平方 和 最 小 的 充分 必要 条 件 是 : 
ao) ， 
op, 
由 此 得 到 k+1 个 求 导 方 程 : 
.2(% -局 -Pn -px -… 一 及)CD =0 
2 2(0y -局 -pn -Px -Bx )(—n) =0 

















(j=0,1,2,.…,k) (4-41) 


: (4—42) 
S20 = = 二 二 力克 ES 
将 上 述 方程 组 人 简化， 得 到 正规 方程 组 
Dy nb tO tp ttph Dn 
》 yn = 局 》 和 + 局 》 th mt th, Yn 
(4-43) 


yx = hh + nr + py nx tt ph 
上 述 正规 方程 组 为 关于 待 估计 参数 的 k+l1 元 一 次 方程 组 ， 求 解 可 得 各 待 估 参 
数 的 值 。 用 和 矩阵 表示 参数 的 估计 式 为 
B=(XX) XY (4—44) 
(2) 参数 最 小 二 乘 估 计 的 分 布 特征 与 性 质 
与 一 元 线性 回归 一 样 ， 在 满足 经 典 假设 的 情况 下 ， 可 以 证 明 多 元 线性 回归 模 
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型 参数 的 最 小 二 乘 佑 计 服 从 正 态 分 布 ， 并 具有 无 俩 性 、 最 小 方 关 性 和 线性 。 
(3) 随机 误差 项 的 方差 ca- 的 估计 
在 回归 参数 的 方差 和 标准 差 公 式 中 ，c -为 总 体 回归 模型 中 随机 误差 项 2 的 方 
差 。a 是 无 法 观测 得 到 的 ， 但 可 以 由 样本 回归 模型 中 随机 误差 项 进行 估计 ， 佑 计 
结果 为 
入 2 2 
“一 之 一 ] 
可 以 证 明 ， 上 述 估 计量 是 随机 误差 项 E 的 方差 er 的 无 偏 估计 。(n-k-1) 是 
其 自由 度 。 
3. 多 元 线性 回归 模型 的 拟 合 优 度 与 统计 检验 
(1) 多 元 线性 回归 模型 的 拟 合 优 度 
(DD 多 重 可 决 系数 R*。 与 一 元 线性 回归 类 似 ， 多 元 线性 回归 模型 也 需要 考察 
模型 对 观测 值 的 拟 合 程度 ， 以 说 明 模 型 的 拟 合 优 度 。 多 元 线性 回归 对 模型 拟 合 优 
度 的 考察 ， 也 是 使 用 总 离 差 平方 和 中 回归 平方 和 所 占 比 重 ， 即 R* 。 与 一 元 线性 回 
归 不 同 ， 多 元 线性 回归 的 回归 平方 和 是 由 多 个 目 变 量 共同 解释 的 部 分 。 为 了 以 示 
区 别 ， 将 多 元 线性 回归 中 回归 平方 和 占 总 离 差 平方 和 的 比重 称 为 多 重 可 诀 系 数 或 
复 可 决 系数 。R? 的 计算 如 下 


(4—45) 























R? _ >》 (了 了 )- 
>_0, —y) 


R’ 0 
2.0,-7) 

R” 的 值 越 接 近 1， 表 明 模 型 对 样本 数据 的 拟 合 程度 越 优 。 在 实际 应 用 中 ， 尺 - 
达到 多 大 才 算 模型 通过 了 检验 并 没有 绝对 标准 ， 应 根据 具体 情况 确定 。 值 得 注意 
的 是 ， 模 型 的 拟 合 优 度 并 不 是 判断 模型 质量 的 唯一 标准 ， 有 时 需要 考虑 模型 的 实 
际 意义、 回归 系数 的 可 菲 性 等 因素 。 

@) 调整 后 的 RY。 在 实际 应 用 中 发 现 ， 基 于 已 经 观测 到 的 样本 数据 ， 如 果 在 
模型 中 增加 自 变 量 ， 则 模型 的 解释 功能 增强 了 ， 残 差 平方 和 会 相应 减少 ， 尺 会 增 
大 。 这 就 给 人 一 个 错觉 : 为 了 使 模型 拟 合 得 更 好 ， 应 增加 目 变 量 的 个 数 。 但 在 样 
本 容量 一 定 的 前 提 下 ， 增 加 目 变 量 不 仅 会 损失 目 由 上 度 ， 还 会 市 来 其 他 问题 。 为 了 
消除 目 变 量 个 数 对 模型 拟 合 优 度 的 影响 ， 实 际 应 用 中 往往 对 尽 进行 调整 
(Adjusted-R-Square)， 其 计算 公式 为 : 


(4—46) 
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rs 7 /(n—l) 四 n=k=l (太田 a 
式 中 ，(n-k-1) 为 残 差 平方 和 的 自由 度 ; (n-1) 为 总 离 差 平方 和 的 自由 度 。 可 以 
看 出 ，R” 经 过 调整 比 原来 变 小 了 。 

(2) 回归 方程 的 显 铸 性 检验 (FF 检验 ) 

A A Re en i 拟 合 优 度 越 高 ， 表 明 
线性 方程 对 数据 拟 合 得 越 好 , 但 这 只 是 一 个 模糊 的 判断 ,需要 给 出 统计 上 的 检验 。 
方程 的 显著 性 检验 瓯 是 对 模型 的 整体 线性 关系 是 香 成 立 所 进行 的 检验 。 方程 的 显 

闭 性 检验 使 用 的 方法 因 构造 的 统计 量 不 同 而 不 同 ， 其 中 以 下 检验 应 用 最 为 普 过 ， 
一 般 的 数据 分 析 软 件 中 都 有 刁 统计 量 的 计算 结果 。 
GO 检验 的 模型 为 
J = + Bn + px tt Px +é, (i=1,2,.…,n) (4-48) 
加 要 检验 的 假设 为 
































Hi: bP = 用 = =0 
Hi:: Pi(j=1,2,.…,k) 不 全 为 0 


如 采 互 ,成立 ， 则 所 有 目 变 量 系数 全 为 0， 表明 由 所 有 上 自 变 量 构成 的 线性 部 分 
整体 上 不 能 解释 因 变 量 ， 即 方程 不 成 立 ;， 如 来 及 成立 ， 即 至 少 有 一 个 目 变 量 系数 
不 为 0， 则 表明 线性 关系 成 并 。 

(3) 检验 的 统计 量 。y, 服 从 正 态 分 布 ， 因 此 的 一 组 样本 的 平方 和 服从 和 分 
布 ， 有 























ESS = 》 ($-7) x(k) 


(4-49) 
RSS= > (y—$) 和 OK 一 ]) 
构造 已 统计 量 
7 (4-50) 
RSS / (n—k-l) 


在 给 定 的 显著 性 水 平 w 下， 如果 玉 二 FF,(k,n 一 k 一 1) ， 则 拒绝 五 ,， 即 模型 的 
线性 关系 显著 成 立 , 模型 通过 显著 性 检验 ; 如 果 玉 二 (k,n 一 k 一 1), 则 不 拒绝 五， 
表明 回归 方程 中 所 有 目 变 量 联 合 起 来 对 因 变 量 的 影响 不 显著 ， 即 模型 的 线性 关系 
显著 不 成 立 ， 模 型 未 通过 显著 性 检验 。 

(3) 变量 的 显 兰 性 检验 (1 检验) 

在 多 元 线性 回归 分 析 中 ， 方 程 的 总 体 线性 关系 成 立 并 不 能 说 明 每 个 目 变 量 对 
因 变 量 的 影响 都 是 显 划 的， 必须 对 每 个 和 目 变 量 进行 显著 性 检验 。 在 一 元 线性 回归 
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分 析 中 ,因为 只 有 一 个 目 变 量 , 所 以 方程 的 显著 性 检验 等 价 于 变量 的 显 阁 性 检验 。 
多 元 线性 回归 中 变量 的 显 闭 性 检验 方法 与 一 元 线性 回归 相同 ， 普 所 使 用 1 检验 。 
可 以 证 明 ， 回 归 系 数 的 佑 计量 服从 正 态 分 布 























pb, ~ NIB,,Var(p,)] (4-51 ) 
其 中 ， 参 数 的 协 方差 矩阵 为 

Cov(P)=o* (半生) (4-52 ) 
以 CG, 表示 算 阵 (X 实 ) 主 对 角 线 上 的 第 守 个 元 素 ， 参 数 估计 量 的 方差 为 


Var(p) 为 oC, 
由 于 随机 误差 项 e 的 方差 oc 未知， 使 用 样本 估计 量 代 蔡 ， 由 此 构造 ; 
统计 量 : 








-ph ~1t(n—k—1) 
SO 
S$(B,)= VO, (4-53) 
0 = pe 
n—k—l 
GO 构造 假设 为 
H,: bp, =0 


H: PB,#0 (j=1,2,.…,k) 
如 果 拒 绝 五 , ， 则 变量 通过 显著 性 检验 ， 即 自 变量 * 对 因 变 量 y 有 显著 的 影 
响 ， 否 则 自 变 量 *; 对 因 变量 > 的 影响 不 显著 。 
@@ 计算 1 统计 量 的 值 。 当 及 成立 时， 由 样本 数据 计算 出 检验 的 统计 量 为 
$e b, 
S(p,) 
@) 依据 临界 值 进行 检验 。 给 定 显著 性 水 平 a ， 得 到 临界 值 t,(n 一 k 一 1)， 如 
果 |1| 二 tj,(n-k 一 1) ， 则 拒绝 有 如, ， 变 量 通过 显著 性 检验 ， 即 变量 x 对 因 变 量 y 
有 显著 的 影响 ， 否 则 不 能 通过 显著 性 检验 。 
4.1.4 非 线性 回归 模型 
在 实际 研究 中 ， 很 多 时 候 变 量 之 间 的 关系 不 一 定 是 线性 关系 ， 而 是 因 变 量 表 
现 为 自 变 量 的 非 线 性 组 合 ， 此 时 研究 现象 之 间 的 关系 需要 配合 非 线 性 回归 模型 。 
由 于 非 线 性 模型 的 估计 比 线性 模型 要 复杂 得 多 ， 通 常 尽 可 能 将 其 转化 为 线性 问题 














(4—54) 
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加 以 解决 ， 尽 管 不 是 所 有 非 线 性 模型 都 可 以 线性 化 ， 但 许多 非 线 性 模型 线性 化 后 
仍 适 用 于 线性 回归 模型 的 估计 方法 。 本 节 将 介绍 此 类 非 线性 模型 的 线性 化 。 

1. 非 线性 模型 的 线性 化 

变量 之 间 的 非 线 性 关系 许多 情况 下 可 以 通过 简单 变换 完全 转化 为 线性 关系 ， 
其 中 变量 非 线 性 问题 和 有 些 参数 非 线 性 问题 一 般 可 以 完全 转化 为 线性 问题 。 

(1) 双 曲 线 模 型 的 线性 化 

双 曲 线 模型 的 一 般 形式 为 


1 1 
一 =QC+D 一 + (=1,2,.…,n) (4—55) 
Xi 


i 








在 模型 中 ，x 为 日 变量 ; y 为 因 变 量 ; 表示 随机 误差 ，Q 和 为 回归 参数 。 


今 


则 有 
y =C+OXT+E 
此 时 ， 两 变量 之 间 的 非 线 性 问题 完全 转化 为 一 元 线性 问题 。 
(2) 虹 图 数 模型 的 线性 化 
时 函 数 模 型 的 一 般 形 式 为 
y, = XE (4—56) 
模型 两 边 取 对 数 有 
lgy,=lgo+plgx,+e, (4—57) 
今 
y=lgy,, X=lgx, =lg%, é€=lgé, 
则 有 
y= +Px+e; 
此 时 ， 贤 函数 模型 完全 转化 为 一 元 线性 模型 。 
(3) 指数 函数 模型 的 线性 化 
指数 函数 模型 的 一 般 形 式 为 


模型 两 边 取 目 然 对 数 有 
Iny=Inxw+AOxc+e (4—59) 
今 
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y=Iny, =n 
则 有 
y=0 +Px+e 
此 时 ， 指 数 函 数 模型 完全 转化 为 一 元 线性 模型 。 
(4) 5 形 曲 线 模型 的 线性 化 
9 形 曲 线 模 型 的 一 般 形 式 为 


1 
7 = 一 一 一 一 (4-60) 
w+Le +2 
今 
/ 1 / 
y;=—,， X=e 
i 
则 有 


y=0+Px+e, 
此 时 ，5 形 曲 线 模 型 完全 转化 为 一 元 线性 模型 。 
(5) 多 项 式 模型 的 线性 化 
在 某 些 一 元 非 线 性 模型 中 ， 因 变量 表现 为 自 变 量 的 多 项 式 组 合 ， 比 较 典 型 的 
如 抛物 线 模型 ， 抛 物 线 模型 有 二 次 、 三 次 等 不 同形 式 。 考 虑 二 次 抛物 线形 式 


y,=Q+ Px, + yx, +e, (4—61) 
此 时 ， 将 x 看 作 上 自 变 量 x,， 将 x 看 作 自 变量 x,,， 则 有 
y,=Q+ px,+7Yx,,+e, (4—62) 


二 次 抛物 线 模 型 完全 转化 为 二 元 线性 模型 。 同 样 , 有 次 抛物 线 可 以 完全 线性 
化 为 天 元 线性 模型 。 

需要 注意 的 是 ， 上 述 多 项 式 模型 线性 化 后 ， 容 易 引 起 多 重 共 线 性 问题 。 

在 原来 的 非 线 性 模型 中 ， 满 足 线 性 回归 模型 假设 条 件 的 ， 转 化 为 线性 模型 后 
假设 条 件 不 一 定 再 满足 。 比 如 : 原 模 型 中 随机 误差 项 在 满足 经 典 假设 的 情况 下 ， 
线性 便 型 中 新 的 随机 误差 项 不 一 定 再 满足 正 态 分 布 的 假设 ; 多 项 陈 非 线性 模型 转 
化 为 线性 模型 后 目 变 量 之 间 不 存在 线性 相关 的 假设 不 再 满足 : 等 等 。 

2. 不 可 化 为 线性 的 非 线 性 问题 

并 非 所 有 的 非 线 性 模型 都 可 以 转换 为 线性 问题 。 如 果 非 线性 回归 模型 无 论 采 
用 什么 样 的 变换 都 不 可 能 实现 其 线性 化 , 则 称 之 为 不 可 线性 化 的 非 线 性 回归 模型 。 

这 种 模型 的 估计 方法 是 迭代 线性 化 逐步 交 近 法 ， 其 基本 步 又 是 : 

(D 冯 先 通过 泰勒 级 数 展开 将 模型 的 非 线 性 函数 在 条 一 组 初始 参数 估计 值 附 
近 线性 化 。 
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@ 对 这 一 线性 化 的 函数 应 用 普通 最 小 二 乘法 ， 得 到 一 组 新 的 参数 估计 值 。 

(3) 再 使 非 线 性 函数 在 新 的 参数 估计 值 附 近 线 性 化 , 对 新 的 线性 化 的 模型 再 次 
应 用 普通 最 小 二 乘法 ， 又 得 到 一 组 新 的 参数 估计 值 。 

网 不 断 重 复 上 述 过 程 , 直至 参数 估计 值 收敛 为 止 , 即 第 n 组 参数 估计 值 与 第 
1-1 组 参数 佑 计 值 没有 显 赦 过 别 时 为 止 。 

这 个 方法 的 优点 是 : 

(D 有 比较 高 的 计算 效率 。 如 果 被 估计 的 非 线 性 函数 很 接近 一 个 线性 函数 ， 则 
只 需要 几 次 欠 代 就 可 以 得 到 满意 的 结 末 。 

@ 因为 每 一 次 迭代 都 是 一 次 线性 回归 ， 因 此 我 们 可 以 进行 标准 的 显著 性 检 
验 、 拟 合 优 度 检验 等 各 种 统计 检验 。 


4.1.5 小结 


在 统计 学 中 ， 回 归 分 析 指 的 是 确定 两 种 或 两 种 以 上 变量 间 相 互 依 赖 的 定量 3 
系 的 一 种 统计 分 析 方 法 。 回 归 分 析 按 照 涉及 的 变量 的 多 少 ， 分 为 一 元 回归 和 多 元 
回归 分 析 ; 控 照 目 变 量 和 因 变 量 之 间 的 关系 类 型 ， 可 分 为 线性 回归 分 析 和 非 线 性 
回归 分 析 。 在 大 数据 分 析 中 ， 回 归 分 析 是 一 种 预测 性 的 建 模 技术 ， 它 研究 的 是 因 
变量 (目标 和 上 自 变 量 〈( 预 测 费 ) 之 间 的 关系。 这 种 技术 通 第 用 于 预测 分 析 、 时 
间 序 列 醒 型 以 及 发 现 变 量 之 间 的 因 有 果 关 系 。 例 如 ， 研 究 轨 驶 员 的 鲁莽 鸭 驶 与 道路 
交通 事故 数量 之 间 的 关系 ， 最 好 的 方法 束 是 回归 。 本 节 着 重 介 绍 了 相关 分 析 、 一 
元 和 多 元 线性 回归 分 析 以 及 非 线 性 回归 分 析 ， 在 应 用 中 可 根据 实际 情况 选择 合适 
的 模型 。 


























聚 类 方法 


在 目 伏 科学 和 社会 科学 中 存在 着 大 量 的 聚 类 问题 。 其 实 聚 类 是 一 个 人 们 日 党 
生活 的 常见 行为 ， 所谓“ 物 以 类 聚 ， 人 以 群 分 ”， 其 核心 思想 就 是 聚 基 。 人 们 总 是 
不 断 地 改进 意识 中 的 聚 闫 模 陈 来 学 习 如 何 区 分 各 个 事物 和 人 。 通 过 聚 基 ， 人 们 能 
分 辨 出 密集 和 黎 焉 的 区 域 ， 妥 现 全 局 的 分 布 规律 ， 以 及 数据 属性 之 间 有 趣 的 相互 
关系 。 

聚 类 起 源 于 分 类 学 ， 在 古老 的 分 类 和 学 中 ， 人 们 主要 依 徘 经 验 和 专业 知识 来 实 
现 分 类 ， 很 少 利用 数学 工具 进行 定量 的 分 类 。 随 着 科学 拉 术 的 友 展 ， 人 类 对 分 类 
的 要 求 越 来 越 局 ， 以 致 有 时 仅 插 经验 和 专业 知识 难以 确切 地 进行 分 类 。 于 是 人 们 
逐渐 地 把 数学 工具 引入 到 了 分 类 学 中 ， 形 成 了 数值 分 类 学 ， 之 后 义 将 多 元 分 析 的 
技术 引入 到 数值 分 类 和 学 形 成 了 聚 类 。 在 实践 中 ， 聚 类 往往 为 分 类 服务 ， 即 先 通 过 
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聚 类 来 判断 事物 的 合适 类 列 ， 然 后 再 利用 分 类 技术 对 新 的 样本 进行 分 类 。 

聚 类 已 经 广泛 地 应 用 在 许多 应 用 中 ， 包 括 模 式 识别 、 数 据 分 析 、 图 像 处 理 以 
及 市 场 研究 。 作 为 数据 挖掘 的 一 个 功能 ， 聚 类 能 作为 独立 的 工具 来 获得 数据 分 布 
的 情况 ， 观 聚 每 个 秘 的 特点 ， 集 中 对 特定 的 条 些 艇 做 进一步 的 分 析 。 此 外 ， 聚 类 
分 析 还 可 以 作为 其 他 算法 的 预 处 理 步 怠 ， 简 化 计算 量 ， 提 融 分 析 效 紊 。 本 市 将 介 
绍 肾 类 的 常用 方法 。 


4.2.1 聚 类 方法 概要 


1. 聚 类 的 概念 

将 物理 或 抽象 对 象 的 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 或 秘 (Cluster) 的 
过 程 被 称 为 聚 类 (Clustering)。 由 聚 类 所 生成 的 秘 是 一 组 数据 对 象 的 集合 ， 这 些 
对 象 与 同一 个 复 中 的 对 象 相似 度 较 高 ， 与 其 他 艇 中 的 对 象 相似 度 较 低 。 相 似 度 是 
根据 描述 对 象 的 属性 值 来 度量 的 ， 距 离 是 经 稼 采 用 的 度量 方式 。 分 析 事 物 聚 类 的 
过 程 称 为 聚 类 分 析 或 者 群 分 析 ， 它 是 研究 (样品 或 指标 分 类 问题 的 一 种 统计 分 
析 方 法 。 

在 许多 应 用 中 , 簇 的 概念 都 没有 严格 的 定义 。 为 了 理解 确定 簇 构 造 的 困难 性 ， 
可 参考 图 4-4。 该 图 显示 了 18 个 点 和 将 它们 划分 成 簇 的 3 种 不 同方 法 。 标 记 的 形 
状 指 示 簇 的 隶属 关系 。 图 4-4b 和 图 4-4d 分 别 将 数据 划分 成 两 部 分 和 六 部 分 。 然 
而 ， 将 2 个 较 大 的 入 都 划分 成 3 个 子 复 可 能 是 人 的 视觉 系统 造成 的 假象 。 此 外 ， 
说 这 些 点 形成 4 个 徐 (图 4-4c) 可 能 也 不 无 道理 。 该 图 表明 簇 的 定义 是 不 精确 的 ， 
而 最 好 的 定义 依赖 于 数据 的 特性 和 期 望 的 结果 。 另 外 ， 徐 的 形象 表现 在 空间 分 布 
上 也 不 是 确定 的 ， 而 是 成 各 种 不 同 的 形状 ， 在 二 维 平面 里 就 可 以 有 各 种 不 同 的 形 
状 ， 如 图 4-5 所 示 ， 在 多 维 空间 里 ， 有 更 多 的 形状 。 因 此 簇 的 定义 ， 也 需要 有 具体 
情况 具体 分 析 ， 但 总 的 趋势 是 ， 同 一 个 复 的 样本 在 空间 上 是 靠拢 在 一 起 的 。 
















































































Q 
©, BS, A A 加 四 
Se @ ee MA 全 a 目 日 
a) b) 


狂 9 A Q 
as Se @ a 信 ” xx * 
c) d) 


图 4-4 相同 点 集 的 不 同 聚 类 方法 


a) 原来 的 点 b) 2 个 能 c) 4 个 艇 d) 6 个 簇 
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4-5 各 见 的 类 别 特征 


聚 类 分 析 与 其 他 将 数据 对 象 分 组 的 技术 相关 。 例如 ,有 聚 类 可 以 看 作 一 种 分 类 ， 
它 用 类 ( 秘 ) 标号 创建 对 象 的 标记 。 然 而 ， 只 能 从 数据 导出 这 些 标号 。 相 比 之 下 ， 
分 类 是 监督 分 类 (Supervised Classification )， 即 使 用 由 类 标号 已 知 的 对 象 开发 的 
模型 ， 对 新 的 、 无 标记 的 对 象 赋 予 类 标号 。 为 此 ， 有 时 称 聚 类 分 析 为 非 监 督 分 类 
(Unsupervised Classification )。 

此 外 ， 尽 管 分 割 〈Segmentation 〉 和 划分 (Partitioning) 这 两 个 术语 有 时 也 用 
作 聚 类 的 同义词 , 但 是 这 些 术 语 通 第 用 来 表示 传统 的 聚 类 分 析 之 外 的 方法 。 例如 ， 
划分 (Partitioning，〉 通 常用 在 与 将 图 分 成 子 图 相关 的 技术 ， 与 肾 类 并 无 太 大 联系 。 
分 割 (Segmentation) 通常 指使 用 简单 的 技术 将 数据 分 组 ; 例如 ， 图 像 可 以 根据 像 
系 亮 度 或 颜色 分 割 ， 人 可 以 根据 他 们 的 收入 分 组 。 尽 管 如 此 ， 图 划分 、 图 像 分 割 
和 市 场 分 割 的 许多 工作 都 与 聚 类 分 析 有 关 。 

2. 类 的 度量 方法 

既然 要 研究 肾 类 ， 我 们 就 有 必要 了 人 解 不 同类 的 度量 方法 。 纵 然 类 的 形式 各 有 
不 同 ， 但 总 的 来 说 ， 第 用 的 类 的 度量 方法 有 两 种 ， 即 距离 和 相似 系数 。 距 离 用 来 
度量 样品 之 间 的 相似 性 ， 相 似 系数 用 来 度量 变量 之 间 的 相似 性 。 

(1) 距离 

设 X，XX，*…，X, 为 取 目 p 元 总 体 的 样本 ， 记 第 i 个 样品 为 
XX, 三 (Xn, 2 于,) (i = 二 1,2,…,n) 。 桶 类 分 析 中 常用 的 距离 有 以 下 几 种 : 

(D 明 可 夫 斯 基 (Minkowski)〉 距 离 。 第 i 个 样品 X; 和 第 j 个 样品 XX 之 间 的 明 
可 夫 斯 基 距 离 (也 称 “ 明 氏 距 离 ”) 定义 为 
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l/g 
d= | l (i =1,2,…,n; ] =1,2,.…,n) (4—63) 
k=1 


其 中 ，g 为 正 整数 。 
特别 地 ， 


当 gqg=] 时 ，4(]), = > x 一 Xx | 为 绝对 值 距 离 。 
1/2 
当 g=2 时 ，4a(2); bs 一 六 为 欧式 距离 。 
k=1 


当 g 一 % 时 ，4(%), = max I 一 2 为 切 比 雪夫 距离 。 
<k<p 





注意 : 当 各 变量 的 单位 不 同 或 测量 值 范 围 相 差 很 大 时 ， 不 应 直接 采用 明 可 夫 
斯 基 距 离 ， 应 先 对 各 变量 的 观测 数据 做 标准 化 处 理 。 

@ 兰 氏 (Lance 和 Williams) 距离 。 当 x 0(i=1,2,…,n; j=1,2,…p) 时， 
定义 第 i 个 样品 X, 和 第 j 个 样品 XX 之 间 的 兰 氏 距离 为 


ad (L)= y 
ee Xir Ti 
兰 氏 距离 与 各 变量 的 单位 无 天 ， 它 对 大 的 异常 值 不 敏感 ， 故 适用 于 噩 度 和 斜 偏 
的 数据 。 
(3) 马 哈 拉 诡 比 期 (Mahalanobis〉 距离。 第 i 个 样品 X, 和 第 j 个 样品 久之 间 
的 蕊 哈 拉 诺 比 斯 距离 〈 人 简称“ 马 氏 距离 ”) 定义 为 











| 一 Xi | 


(i=1,2,.…,7; 7=1,2,.…,n) (4—64) 

















g ] 雪人 . | 
di 和 和 — XN — Xr (i=1,2,.…,n; J=1,2,.…,n) (4-65) 
k=] k=l 


其 中 ， 是 变量 x 和 变量 之 间 的 相关 系数 。 
(2) 相似 系数 
第 用 的 相似 系数 有 两 种 度量 方法 : 
QD 夹 角 余 弦 。 变 量 x 和 变量 x 的 夹 角 余弦 定义 为 








CD = 一 i=1,2,.,p; j=1,2,.…,p) (4-66) 


它 是 变量 x 的 观测 值 同 量 ww,,…,X) 和 变量 x 的 观测 值 同 量 
(Xiss 2 )， 本 Xj) 间 严 有 角 的 余弦 值 。 
@g 相关 系数 。 变 量 x 和 变量 x 的 来 角 相关 系数 为 











120 


第 4 章 
数据 分 析 的 基础 理论 


>》 Ge — X(N, —X;) 
Ci 2) = OQ (i=1,2,.…, p; j=1,2,.…,7p) 


ba -5 | SG -5 





k=] 


(4—67) 


-1 . . 
Xi = Xs (i=1, i p; 7=], i p) 
k=1 


由 相似 系数 还 可 以 定义 变量 间距 离 ， 如 
di =1—C, (i=1,2,.…, p; j=1,2,.…, p) 

3. 聚 类 方法 分 类 

聚 类 问题 的 研究 已 经 有 很 长 的 历史 。 迄今 为 止 , 为 了 解决 各 领域 的 聚 类 应 用 ， 
己 经 提出 的 聚 类 算法 有 近 百 种 。 根 据 聚 类 原理 ， 可 将 聚 类 算法 分 为 以 下 几 种 : 划 
分 聚 类 、 层 次 聚 类 、 基 于 密度 的 聚 类 、 基 于 网 格 的 聚 类 和 基于 模型 的 聚 类 。 

虽然 聚 类 的 方法 很 多 ， 但 在 实践 中 用 得 比较 多 的 还 是 -means、 层 次 聚 类 、 
神经 网 络 肾 类 、 模 糊 C- 均 值 聚 类 、 高 斯 聚 类 这 几 种 第 用 的 方法 。 所 以 本 布 随后 将 
重点 介绍 这 几 个 方法 。 




















4.2.2 ”天 -means 方法 


K-means (K- 均 值 聚 类 ) 算法 是 音 名 的 划分 聚 类 分 割 方 法 。 划 分 方法 的 基本 
思想 是 : 给 定 一 个 有 NN 个 元 组 或 者 记录 的 数据 集 ， 分 裂 法 将 构造 个 分 组 ， 每 一 
个 分 组 就 代表 一 个 聚 类 ，K<N。 而 且 这 天 个 分 组 满足 下 列 条 件 : 

(DD 每 一 个 分 组 至 少 包 含 一 个 数据 记录 。 

@) 每 一 个 数据 记录 属于 且 仅 属于 一 个 分 组 。 

对 于 给 定 的 玉 ， 算 法 首先 给 出 一 个 初始 的 分 组 方法 ， 以 后 通过 反复 迭代 的 方 
法 改变 分 组 ， 使 得 每 一 次 改进 之 后 的 分 组 方案 都 较 前 一 次 好 。 而 所 谓 好 的 标准 就 
是 : 同一 分 组 中 的 记录 越 近 越 好 《〈 已 经 收敛 ， 反 复 欠 代 至 组 内 数据 几乎 无 差异 )， 
而 不 同 分 组 中 的 记录 越 远 越 好 。 

1. K-means 算法 的 原理 和 步骤 

K-means 算法 的 工作 原理 : 首先 随机 从 数据 集中 选取 天 个 点 ， 每 个 点 初始 地 
代表 每 个 禾 的 聚 类 中 心 ， 然 后 计算 剩余 各 个 样本 到 聚 类 中 心 的 距离 ， 将 它 赋 给 最 
近 的 复 ， 接 着 重新 计算 每 一 复 的 平均 值 。 整 个 过 程 不 断 重 复 。 如 果 相 邻 两 次 调整 
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没有 明显 变化 ， 则 说 明 数 据 聚 类 形成 的 艇 已 经 收 剑 。 本 算法 的 一 个 特 扣 是 在 每 次 
友人 代 中 都 要 考察 每 个 样本 的 分 类 是 售 正 确 。 乔 不 正确 ， 就 要 调整 ， 在 全 部 样本 调 
整 完 后 ， 再 修改 聚 闫 中心 ， 进 入 下 一 次 迭代 。 这 个 过 程 将 不 重复 直到 满足 茶 个 终 
止 条 件 ， 终 止 条 件 可 以 是 以 下 任何 一 个 : 

(WD 没有 对 象 个 重新 分 配给 不 同 的 聚 类 。 

@ 聚 关 中 心 不 再 发 生变 化 。 

(3) 误 关 平方 和 局 部 最 小 。 

算法 步骤: 

(D 从 nn 个 数据 对 象 中 任意 选择 个 对 象 作 为 初始 聚 类 中 心 。 

忆 循环 (3) 到 4)， 和 直到 每 个 聚 类 不 再 友 生 变化 为 止 。 

(3) 根据 每 个 聚 类 对 象 的 均值 〈 中 心 对 象 )， 计 算 每 个 对 象 与 这 些 中 心 对 象 的 
距离 ， 并 根据 最 小 距离 重新 对 相应 对 象 进行 划分 。 

4) 重新 计算 每 个 聚 类 的 均值 (中 心 对 象 )， 征 到 聚 类 中 心 不 册 变化 。 这 种 划 
分 使 得 下 云 最 小 











E=Y 了 x -ml| (4-68) 








2. K-means 算法 的 特点 

CO 在 K-means 算法 中 天 是 事先 给 定 的 。 这 个 天 值 的 选 定 是 非常 难以 佑 
计 的 。 

(多 在 K-means 算法 中 ， 首 先 需 要 根据 初始 聚 类 中 心 来 确定 一 个 已 始 划分 ， 
然后 对 初始 划分 进行 优化 。 

(3) K-means 算法 需要 不 断 地 进行 样本 分 类 调整 ,不 断 地 计算 调整 后 的 新 的 聚 
类 中 心 ， 因 此 当 数 据 量 非常 大 时 ， 算 法 的 时 间 开 销 是 非常 大 的 。 

由 玉 -means 算法 对 一 些 离散 点 和 初始 K 值 敏感 ， 不 同 的 距离 初始 值 对 同样 
的 数据 样本 可 能 得 到 不 同 的 结果 。 


4.2.3 ”层次 聚 类 

















1. 层次 聚 类 原理 和 步 又 

层次 聚 类 算法 ， 是 通过 将 数据 组 织 为 若干 组 并 形成 一 个 相应 的 树 来 进行 聚 类 
的 。 根 据 层次 是 自 底 同 上 还 是 上 自 顶 同 下 形成 ， 层 次 聚 类 算法 可 以 进一步 分 为 凝聚 
的 聚 类 算法 和 分 裂 的 聚 类 算法 ， 如 图 4-6 所 示 。 一 个 完全 层次 聚 类 的 质量 由 于 无 
法 对 已 经 做 的 合并 或 分 解 进行 调整 而 受到 影响 。 但 是 层次 聚 类 算法 没有 使 用 准则 
函数 ， 它 所 含 的 对 数据 结构 的 假设 更 少 ， 所 以 它 的 通用 性 更 强 。 
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凝聚 的 层次 聚 类 (AGENES) 
步 又 0 步 又 1 步 又 2 步 又 3 步骤 4 





























步骤 4 步骤 3 步骤 2 步骤 1 步骤 0 
分 裂 的 层次 聚 类 (DIANA) 
图 4-6 凝聚 的 层次 聚 类 和 分 裂 的 层次 聚 类 处 理 过 程 


在 实际 应 用 中 一 般 有 两 种 层次 聚 类 方法 : 

(WD 凝聚 的 层次 聚 类 : 这 种 目 奈 同上 的 策略 痛 先 将 每 个 对 象 作为 一 个 驴 , 然后 
合并 这 些 原 子 艇 为 越 来 越 大 的 艇 ， 直 到 所 有 的 对 象 都 在 一 个 禾 中 ， 或 者 东 个 终结 
条 件 科 达到 要 求 。 大 部 分 的 层次 聚 类 方法 都 属于 一 类 ， 它 们 在 簇 间 的 相似 度 的 定 
义 有 点 不 一 样 。 

忆 分 袋 的 层次 聚 闫 : 像 这 样 的 目 顶 同 下 的 介 略 与 凝聚 的 层次 聚 类 有 些 不 一 
样 。 它 首先 将 所 有 对 象 放 在 一 个 复 中 ， 然 后 慢 悍 地 细 分 为 越 来 越 小 的 徐 ， 直 到 每 
个 对 象 目 行 形成 一 艇 ,或 者 下 到 满足 其 他 的 一 个 终结 条 件 ， 例 如 满足 了 条 个 期 望 
的 复数 目 ， 叉 或 者 两 个 最 近 的 艇 之 间 的 距离 达到 了 示 一 个 国 值 。 

图 4-6 描述 了 一 个 凝聚 的 层次 聚 类 方法 AGENES 和 一 个 分 裂 的 层次 聚 类 方法 
DIANA 在 一 个 包括 5 个 对 象 的 数据 的 集合 {a，b，c，d，e} 上 的 处 理 过 程 。 初 
始 时 ，AGENES 将 每 个 样本 点 目 为 一 饼 , 之 后 这 样 的 秘 依 照 某 一 种 准则 逐渐 合 
并 ， 例 如 艇 CC 中 的 某 个 样本 扣 和 簇 C, 中 的 一 个 样本 点 相隔 的 距离 是 所 有 不 同 
类 族 的 样本 点 间 欧 几 里 得 距离 最 近 的 ， 则 认为 艇 C 和 艇 C, 是 相似 可 合并 的 。 
这 束 是 一 类 单 链 接 的 方法 ， 即 每 一 个 艇 能 够 被 饼 中 其 他 所 有 的 对 象 所 代表 ， 两 
禾 之 间 的 相似 度 是 由 这 里 的 两 个 不 同 复 中 的 距离 最 相近 的 数据 点 对 的 相似 度 
来 定义 的 。 聚 类 的 合并 进程 往复 地 进行 直到 其 他 的 对 象 合 并 形成 了 一 个 秘 。 而 
DIANA 方法 的 运行 过 程 中 ,初始 时 DIANA 将 所 有 样本 点 归 为 同一 类 艇 ,然后 
根据 作 种 准则 进行 逐渐 分 神 ， 例 如 类 入 C 中 两 个 样本 点 4 和 B 之 间 的 距离 是 
类 艇 C 中 所 有 样本 点 间距 离 最 远 的 一 对 ,那么 样本 后 A 和 BB 将 分 裂 成 两 个 饼 CI 
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和 C,， 并 且 先 前 类 簇 C 中 其 他 样本 点 根据 与 4 和 B 之 间 的 距离 ， 分 别 纳 入 到 
复 C 和 CC 中。 例如， 类 秘 C 中 样本 点 O 与 样本 点 4 的 欧 几 里 得 距离 为 2， 与 
样本 点 B 的 欧 几 里 得 距离 为 4， 因 为 Distance (A, 0) =<Distance (B,，0)， 
那么 O 将 纳入 类 秘 C 中 。 

其 中 ，AGENES 算法 的 核心 步骤 是 : 

e 输入 : 天 一 目标 类 复数 ，D 一 样本 点 集合 ; 

e 输出 : 个 类 簇 集合。 

e 方法 : 

GO 将 DD 中 每 个 样本 点 当 作 其 类 秘 。 

GO 循环 到 直到 类 秘 数 =K 为 止 。 

(3) 找到 分 属 两 个 不 同类 秘 ， 且 距离 最 近 的 样本 点 对 。 

(44) 将 两 个 类 复合 并 。 

而 DIANA 算法 的 核心 步骤 是 : 

输入 : 天 一 目标 类 复数 ，D 一 样本 点 集合 ; 

输出 : K 个 类 艇 集合 。 

方法 : 

(DD 将 DD 中 所 有 样本 点 归并 成 类 秘 。 

GO 循环 到 直到 类 秘 数 =K 为 止 。 

(3) 在 同类 禾 中 找到 距离 最 远 的 样本 点 对 。 

由 以 该 样本 点 对 为 代表 ， 将 原 类 复 中 的 样本 点 重新 分 属 到 新 类 禾 。 

2. 层次 聚 类 特点 

Q 在 凝聚 的 层次 聚 类 方法 和 分 裂 的 层次 聚 类 的 所 有 方法 中 , 都 需要 用 户 提 供 
所 和 硕 望 得 到 的 聚 类 的 单个 数量 和 国 值 作为 聚 类 分 析 的 终止 条 件 ， 但 是 对 于 复杂 的 
数据 来 说 这 是 很 难事 先 判 定 的 。 尽 管 层 次 聚 类 的 方法 实现 很 简单 ， 但 是 偶尔 会 遇 
见 合并 或 分 裂 点 的 抉择 困难 。 这 样 的 抉择 是 特别 关键 的 ， 因 为 只 要 其 中 的 两 个 对 
象 被 合并 或 者 分 多 ， 接 下 来 的 处 理 将 只 能 在 新 生成 的 秘 中 完成 。 己 形成 的 处 理 就 
不 能 被 撤销 ， 两 个 聚 类 之 间 也 不 能 交换 对 象 。 如 果 在 某 个 阶段 没有 选择 合并 或 
分 袭 的 决策 ， 吏 非常 可 能 会 导致 质量 不 高 的 聚 类 结果 。 而 且 这 种 上 聚 类 方法 不 共 
有 特别 好 的 可 伸缩 性 ， 因 为 它们 合并 或 分 裂 的 决策 十 要 经 过 检测 和 估算 大 量 的 对 

@ 层次 聚 类 算法 由 于 要 使 用 距离 矩阵 ， 因 此 它 的 时 间 和 空间 复杂 性 都 很 高 ， 
几乎 不 能 在 大 数据 集 上 使 用 。 层 次 聚 类 算法 只 处 理 符合 有 静态 模型 的 和 能， 忽略 了 
不 同 簇 则 的 信息 以 及 族 间 的 互 连 性 ( 互 连 性 指 的 是 艇 间距 离 较 近 数据 对 的 多 少 ) 
和 近似 上 度 〈 近 似 度 指 的 是 秘 间 对 数据 对 的 相似 度 )。 
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4.2.4 ”类 别 数 的 确定 方法 


1. 原理 

在 聚 类 过 程 中 类 的 个 数 如 何 来 确定 才 合适 呢 ? 这 是 一 个 十 分 困难 的 问题 ， 人 
们 至 今 仍 未 找到 令 人 满意 的 方法 。 但 是 这 个 问题 又 是 不 可 回避 的 。 下 面 我 们 介绍 
两 种 比较 利用 的 方法 。 

(1) 国 值 法 

阔 值 法 是 最 简单 且 有 效 的 方法 ， 其 要 点 就 是 通过 观测 聚 类 图 ， 给 出 一 个 合适 
的 闷 值 7T， 要 求 类 与 类 之 间 的 距离 不 要 超过 了 值 。 比 如 ， 在 图 4-7 所 示 的 层次 聚 
类 图 中 ， 如 采取 国 值 ?=6， 则 聚 为 2 类 ， 如 条 取 国 值 六 3， 则 聚 为 4 类 。 在 实际 
的 聚 类 中 , 我 们 一 方面 希望 类 之 间 有 明显 的 区 分 , 同时 希望 类 别 的 数量 越 大 越 好 。 
因此 对 于 此 图 显示 的 聚 类 分 析 ， 该 问题 聚 成 4 类 是 比较 合适 的 。 
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图 4-7 ”层次 聚 关 图 





(2) 轮廓 图 法 
轮廓 图 法 是 一 种 相对 更 智能 确定 聚 类 类 别 的 方法 。 轮 廊 图 可 由 MATLAB 中 的 
silhouette 函数 来 绘制 。 访 函数 可 以 用 来 根据 cluster.clusterdata.kmeans 的 聚 类 结果 绘 
制 轮廓 图 ， 从 图 上 可 以 看 每 个 点 的 分 类 是 否 合理 。 轮 廊 图 上 第 i 点 的 轮廓 值 定 义 为 
$i) = min(b) a 
max[a, min(b)| 
其 中 ，a 是 第 i 个 点 与 同类 其 他 点 的 平均 距离 ，b 是 问 量 ， 其 元 素 表 示 第 i 个 点 与 
不 同类 的 类 内 各 点 的 平均 距离 。 
5SQ) 的 取 值 范围 是 [-1，1j， 此 值 越 大 , 说 明 该 点 的 分 类 越 合理 。 当 S(i) 0 




















(i =1,.…, n) (4—69) 
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时 ， 说 明 该 点 分 类 不 合理 。 

在 MATLAB 中 ，silhouette 函数 有 以 下 几 种 用 法 : 

s=silhouette (X, clust) % 此 命令 只 返回 轮廓 值 ， 不 男 轮廓 网 ; 

[s, h| =silhouette (X，clust); 

[:… | =silhouette (X, clust, metric); 

[:… | =silhouette (X, clust, distfun, pl, p2, *……)。 

【 实例】 利用 K-means 方法 和 轮廓 图 法 确定 最 住 的 聚 类 类 别 数 , 结果 如 图 4-8 
所 示 ， 此 图 中 分 别 显示 当 类 别 为 2、3、4 时 的 轮 廊 图。 图 4-9 得 到 各 类 别 数 对 应 











的 平均 轮廓 值 ， 根 据 聚 类 的 原则 ， 由 此 图 可 知 ， 类 列 数 取 4 比较 合适 。 


2 类 对 应 的 轮廓 值 图 














轮廓 值 
3 类 对 应 的 轮廓 值 图 
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4 类 对 应 的 轮廓 值 图 
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5 一 
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图 4-8 类 别 为 2、3、4 时 的 轮廓 图 
平均 轮廓 值 和 数 别 数 
0.7 | 





平均 轮廓 值 











类 别 数 
图 4-9 不 同类 别 对 应 的 平均 轮廓 值 
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4.2.5 小结 


本 节 主 要 介绍 了 几 个 党 用 的 聚 类 方法 和 这 些 方法 的 应 用 各 例 。 对 于 聚 类 问题 ， 
自 先 要 确定 肾 类 方法 的 适用 场景 ， 一 般 情况 下 聚 类 主要 是 为 分 类 服务 ， 主 要 是 评 
佑 分 成 几 类 比较 合适 。 男 外 聚 类 对 于 研究 问题 的 层级 结构 非常 有 帮助 ， 也 是 最 有 
效 的 方法 。 

对 于 聚 类 方法 的 选择 ， 通 第 要 考虑 以 下 几 个 原则 “评判 聚 类 好 坏 的 标准 ): 

CO 能 够 适用 于 大 数据 量 。 

Go 能 应 付 不 同 的 数据 类 型 。 

(3) 能 够 发 现 不 同类 型 的 聚 类 。 

44) 使 对 专业 知识 的 要 求 降 到 最 低 。 

(5) 能 应 付 脏 数据 。 

(6) 对 于 数据 不 同 的 顺序 不 敏感 。 

CO 能 应 付 很 多 类 型 的 数据 。 

模型 可 解释 、 可 使 用 。 

但 纵 观 这 些 方法 ， 其 中 的 K-means 和 层次 聚 类 两 种 方法 的 适应 性 最 强 ， 也 应 
用 得 最 广泛 。 所 以 在 不 确定 该 用 哪 种 聚 类 方法 时 ， 可 以 先 用 这 两 种 方法 ， 先 用 层 
次 聚 类 方法 大 致 确定 问题 的 层级 关系， 再 用 K-means 方法 直接 进行 聚 类 ,或 者 结 
合 轮 亡 图 方法 直接 运用 K-means 方法 进行 聚 类 ，。 























分 类 方法 


分 关 是 一 种 重要 的 数据 挖掘 技术 。 分 类 的 目的 是 根据 数据 集 的 特点 构造 一 个 





分 类 函数 或 分 类 模型 (也 常 称 作 分 类 器 )。 该 模型 能 把 未 知 类 别 的 样本 映射 到 给 定 
的 类 列 中 


分 类 方法 是 解决 分 类 问题 的 方法 ， 是 数据 挖 气 、 机 右 学 习 和 模式 识别 中 一 个 
重要 的 研究 领域 。 分 类 算法 通过 对 已 知 类 别 训练 集 的 分 析 ， 从 中 友 现 分 类 规则 ， 
以 此 预测 新 数据 的 类 别 。 分 类 算法 的 应 用 非常 广泛 ， 包 括 银 行 中 风险 评估 、 客 三 
类 别 分 类 、 文 本 检索 和 搜索 引擎 分 类 、 安 全 领域 中 的 入 侵 检 测 以 及 软件 项 目 中 的 
应 用 等 。 本 节 将 介绍 分 类 的 基本 概念 、 常 用 分 类 方法 的 理论 及 应 用 实例 。 


4.3.1 分 类 方法 概要 


1. 分 类 的 概念 
数据 挖掘 中 分 类 的 目的 是 学 会 一 个 分 类 函数 或 分 类 模型 (也 和 营 称 为 分 类 器 )。 


一 一 - 
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该 模型 能 把 数据 库 中 的 数据 项 映射 到 给 定 类 别 中 的 某 一 个 。 

分 类 可 摘 述 如 下 : 输入 数据 ， 或 称 训练 集 (Training Set)， 是 由 一 条 条 数据 库 
记录 〈Record) 组 成 的 。 每 一 条 记录 包含 行 干 个 属性 〈Attribute)， 组 成 一 个 特征 
问 量 。 训 练 集 的 每 条 记录 还 有 一 个 特定 的 类 标签 〈Class Label) 与 之 对 应 。 该 类 
标签 是 系统 的 输入 ， 通 党 是 以 往 的 一 些 经 验 数据 。 一 个 具体 样本 的 形式 可 为 样本 
问 量 : (yj，y,，*"……，V; c)， 在 这 里 v 表示 字段 值 ，c 表示 类 别 。 分 类 的 目的 是 : 
分 析 输 入 数据 一 一 通过 在 训练 集中 的 数据 表现 出 来 的 特性 ， 为 每 一 个 类 找到 一 种 
准确 的 摘 述 或 者 模型 。 由 此 生成 的 类 摘 述 用 来 对 未 来 的 测试 数据 进行 分 类 。 尽 管 
这 些 未 来 的 测试 数据 的 类 标签 是 未 知 的 ， 我 们 仍 可 以 由 此 预测 这 些 新 数据 所 局 
的 类 。 注 意 古 预测 ， 而 不 能 肯定 ， 因 为 分 类 的 准确 率 不 能 达到 百分之百 。 我 们 
也 可 以 由 此 对 数据 中 的 每 一 个 类 有 更 好 的 理解 。 也 束 是 说 : 我 们 获得 了 对 这 个 
类 的 知识 。 

所 以 分 类 (Classification) 也 可 以 定义 为 : 对 现 有 的 数据 进行 学 习 ， 得 到 一 个 
目标 函数 或 规则 ， 把 每 个 属性 集 x 映射 到 一 个 预先 定义 的 类 标号 y。 

目标 函数 或 规则 也 称 分 类 模型 (Classification Model)， 分 类 模型 有 两 个 主要 
作用 : 一 是 描述 性 建 模 ， 即 作为 解释 性 的 工具 ， 用 于 区 分 不 同类 中 的 对 象 ， 二 是 
预测 性 建 模 ， 即 用 于 预测 未 知 记录 的 类 标号 。 

2. 分 类 的 原理 

分 类 方法 是 一 种 根据 输入 数据 集 建立 分 类 模型 的 系统 方法 ， 这 些 方法 都 是 使 
用 一 种 学 习 算 法 (Learning Algorithm ) 确定 分 类 模型 ， 使 该 模型 能 够 很 好 地 拟 合 
输入 数据 中 类 标号 和 属性 集 之 间 的 联系 。 学 习 算 法 得 到 的 模型 不 仅 要 很 好 地 拟 合 
输入 数据 ， 还 要 能 够 正确 地 预测 未 知 样本 的 类 标号 。 因 此 ， 训 练 算法 的 主要 目标 
束 古 建立 具有 很 好 泛 化 能 力 的 模型 , 即 建立 能 够 准确 预测 未 知 样本 类 标 写 的 模型 。 

图 4-10 展示 了 解决 分 类 问题 的 一 般 方法 。 前 先 需要 一 个 训练 集 , 它 由 类 标号 
己 知 的 记录 组 成 。 使 用 训练 集 建 立 分 类 模型 ， 访 模型 随后 将 运用 于 检验 集 (Test 
Set)。 检 验 集 由 类 标号 未 知 的 记录 组 成 。 


学 习 算 法 
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图 4-10 分 类 原理 示意 图 


128 


第 4 章 
数据 分 析 的 基础 理论 


通常 分 类 学 习 所 获得 的 模型 可 以 表示 为 分 类 规则 形式 、 决 策 树 形式 或 数学 公 
式 形 式 。 例 如 ， 给 定 一 个 顾客 信用 信息 数据 库 ， 通 过 学 习 所 获得 的 分 类 规则 可 用 
于 识别 顾客 是 否 上 共有 民 好 的 信用 等 级 或 一 般 的 信用 等 级 。 分 类 规则 也 可 用 于 对 今 
后 未 知 所 属 类 别 的 数据 进行 识别 判断 ， 同 时 也 可 以 帮助 用 户 更 好 地 了 解数 据 库 中 
的 内 容 。 

构造 模型 的 过 程 一 般 分 为 训练 和 测试 两 个 阶段 。 在 构造 模型 之 前 ， 要 求 将 数 
据 集 随机 地 分 为 训练 数据 集 和 测试 数据 集 。 在 训练 阶段 ， 使 用 训练 数据 集 ， 通 过 
分 析 由 属性 描述 的 数据 库 元 组 来 构造 模型 ， 假 定 每 个 元 组 属于 一 个 预定 义 的 类 ， 
由 一 个 称 作 类 标号 属性 的 属性 来 确定 ,训练 数据 集中 的 单个 元 组 也 称 作 训 练 样本 ， 
一 个 具体 样本 的 形式 可 为 : (uj，u,，*…，w; c)。 其 中 wu, 表示 属性 值 ，c 表示 类 
别 。 由 于 提供 了 每 个 训练 样本 的 类 标号 ， 该 阶段 也 称 为 有 指导 的 学 习 。 通 党 ， 模 
型 用 分 类 规则 、 判 定 树 或 数学 公式 的 形式 提供 。 在 测试 阶段 ， 使 用 测试 数据 集 来 
评估 模型 的 分 类 准确 率 。 如 果 认 为 模型 的 准确 率 可 以 接受 ， 束 可 以 用 该 模型 对 其 
他 数据 元 组 进行 分 类 。 一 般 来 说 ， 测 试 阶段 的 代价 远 远 低 于 训练 阶段 。 

为 了 提高 分 类 的 准确 性 、 有 效 性 和 可 伸缩 性 ， 在 进行 分 类 之 前 ， 通 第 要 对 数 
据 进 行 预 处 理 ， 包 括 : 

(D 数据 清理 。 其 目的 是 消除 或 减少 数据 噪声 ， 处 理 空缺 值 。 

@ 相关 性 分 析 。 由 于 数据 集中 的 许多 属性 可 能 与 分 类 任务 不 相关 ， 大 包含 这 
些 属 性 可 能 将 减 慢 和 误导 学 习 过 程 。 相 关 性 分 析 的 目的 区 是 删除 这 些 不 相关 或 元 
余 的 属性 。 

(3) 数据 变换 。 数 据 可 以 概 化 到 较 高 层 概 仿 。 比 如 ， 连 续 值 属性 “收入 ”的 数 
值 可 以 概 化 为 离散 值 : 低 ， 中 ， 高 。 又 比如 ， 标 称 值 属性 “市 ”可 概 化 到 高 层 概 
念 “ 省 ”。 此 外 ， 数 据 也 可 以 规范 化 。 规 范 化 将 给 定 属性 的 值 按 比 例 缩放 ， 沙 入 较 
小 的 区 间 ， 比 如 [0，1] 等 。 

3. 常用 的 分 类 方法 

分 类 的 方法 有 多 种 ,和 常用 的 分 类 方法 主要 有 7 种， 如 图 4-11 所 示 。 在 随后 的 
内 容 中 ， 将 K- 近 邻 和 贝 叶 斯 分 类 方法 的 基本 原理 及 典型 的 应 用 案例 。 


4.3.2 ”天 一 近邻 






































1. K- 近 令 原 理 

K- 近 邻 (KNearest Neighbor，KNN) 算法 是 一 种 基于 实例 的 分 类 方法 ， 最 
初 由 Cover 和 Hart 于 1968 年 提出 ， 是 一 种 非 参 数 的 分 类 技术 。 

天 一 近邻 分 类 方法 通过 计算 每 个 训练 样 例 到 竺 分 类 样品 的 距离 ， 取 和 竺 分 类 样 
品 距 离 最 近 的 天 个 训练 样 例 。 天 个 样品 中 哪个 类 列 的 训练 样 例 占 多 数 ， 则 竺 分 类 
元 组 就 属于 哪个 类 别 。 使 用 最 近邻 确定 类 别 的 合理 性 可 用 下 面 的 谚语 来 说 明 :“ 如 
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逻辑 斯 谤 (Logistic) 








4-11 常用 的 分 类 方法 


果 走 像 胸 子 ， ih 看 起 来 还 像 鸭 子 ， 那 么 它 很 可 能 就 是 一 只 觅 子 ”， 如 
图 4-12 OD Re 近邻 分 类 和 硕 把 每 个 样 例 看 作 4 维 空间 上 的 一 个 数据 点 ， 其 中 a 
征 属性 个 数 。 WA 我 们 可 以 计算 该 测试 样 例 与 训练 集中 其 他 数据 点 
的 距离 (邻近 和 )， 给 定 样 例 z 的 K- 最 近邻 是 指 找 出 和 z 距离 最 近 的 KK 个 数据 后 。 


fg 


| 本 测试 集 


\ 


训练 集 、、 = 7 人 





4-12 ”KNN 方法 原理 示意 图 


图 4-13 给 出 了 位 于 圆圈 中 心 We 点 的 1- 最 近邻 、2- 最 近邻 和 3- 最 近邻 。 
该 数据 点 根据 其 近邻 的 类 标号 进行 分 类 。 如 打数 据点 的 近邻 中 含有 多 个 类 标号 ， 
则 将 该 数据 点 指派 到 其 最 近邻 的 多 数 类 。 在 图 4-13a 中 ， 数 据点 的 1- 最 近邻 是 一 
个 负 例 ， 因 此 该 点 被 指派 到 负 类 。 如 果 最 近邻 是 三 个 ， 如 图 4-13c 所 示 ， 其 中 包 
括 两 个 正 例 和 一 个 负 例 。 根 据 多 数 表决 方案 ， 该 点 被 指派 到 正 类 。 在 最 近邻 中 正 
例 和 负 例 个 数 相同 的 情况 下 〈 图 4-13b)， 可 随机 选择 一 个 类 标号 来 分 类 该 点 。 

KNN 算法 具体 步骤 如 下 : 

步骤 1: 初始 化 距离 为 最 大 值 。 

步骤 2: 计算 未 知 样本 和 每 个 训练 样本 的 距离 dist。 

步骤 3: 得 到 目前 玉 个 最 近邻 样本 中 的 最 大 距离 maxdist。 

步骤 4: 如 果 dist 小 于 maxdist， 则 该 训练 样本 作为 K- 最 近邻 样本 。 
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二 二 二 ”二 填 
ie 二 
pp / 十 > 
0 时 (| 到 2 0 
\ 
Df 十 Mt _ 和 水 
十 下 十 十 十 十 
a) 1 -近邻 b) 2- 近 邻 c) 3- 近 邻 
图 4-13 ”实例 


步骤 5: 重复 步骤 2 一 步骤 4， 直 到 未 知 样本 和 所 有 训练 样本 的 距离 都 算 完 。 

步骤 6: 统计 KK 个 最 近邻 样本 中 每 个 类 别 出 现 的 次 数 。 

步骤 7: 选择 出 现 频率 最 高 的 类 别 作 为 未 知 样本 的 类 别 。 

根据 KNN 算法 的 原理 和 步骤 可 以 看 出 ，KNN 算法 对 天 值 的 依赖 较 高 ， 所 以 
玉 值 的 选择 非常 重要 。 如 果 天 太 小 ， 则 预测 目标 容易 产生 变动 性 ， 如 果 天 太 大 ， 
最 近邻 分 类 器 可 能 会 误 分 类 测试 样 例 ， 因 为 最 近邻 列表 中 可 能 包含 远离 其 近邻 的 
数据 点 (图 4-14)。 推 定 天 值 的 有 益 途 径 是 通过 有 效 参 数 的 数目 这 个 概念 ， 有 效 
参数 的 数目 是 和 K 值 相关 的 ， 大 致 等 于 nw/K。 其 中 ，n 是 这 个 训练 数据 集中 实例 
的 数目 。 在 实践 中 往往 通过 若干 次 实验 来 确定 玉 值 ， 取 分 类 误差 率 最 小 的 天 值 。 

2. KK- 近 邻 特点 

用 KNN 方法 在 类 别 决 策 时 ， 只 与 极 少量 的 
相 邻 样本 有 关 ， 因 此 ,采用 这 种 方法 可 以 较 好 地 本 
避免 样本 的 不 平衡 问题 。 另 外 ， 由 于 KNN 方法 及 
主要 是 靠 周围 有 限 的 邻近 的 样本 , 而 不 是 靠 判 别 ， > 
类 域 的 方法 来 确定 所 属 类 别 , 因此 对 于 类 域 的 交 | |- a | 
又 或 重 又 较 多 的 待 分 样本 集 来 说 ，KNN 方法 较 . 
其 他 方法 更 为 适合 。 3 2 

该 方法 的 不 足 之 处 是 计算 量 较 大 , 因为 对 每 I 2 
一 个 待 分 类 的 样本 都 要 计算 它 到 全 体 已 知 样本 
的 距离 , 才能 求 得 它 的 天 个 最 近邻 点 。 针 对 该 不 “图 4-14 天 较 大 时 的 玉 最 近邻 分 类 
足 ， 主 要 有 以 下 两 类 改进 方法 : 

@ 对 于 计算 量 大 的 问题 目前 常用 的 解决 方法 是 事先 对 已 知 样本 点 进行 前 辑 ， 
事先 去 除 对 分 类 作用 不 大 的 样本 。 这 样 可 以 挑选 出 对 分 类 计算 有 效 的 样本 ， 使 样 
本 总 数 合 理 地 减少 ， 以 同时 达到 减少 计算 量 又 减少 存储 量 的 双重 效果 。 该 算法 比 
较 适 用 于 样本 容量 比较 大 的 类 域 的 自动 分 类 ， 而 那些 样本 容量 较 小 的 类 域 采 用 这 
种 算法 比较 容易 产生 误 分 。 

@ 对 样本 进行 组 织 与 整理 , 分 群 分 层 , 尽 可 能 地 将 计算 压缩 在 接近 测试 样本 
领域 的 小 范围 内 ， 避 免 言 目地 与 训练 样本 集中 的 每 个 样本 进行 距离 计算 。 
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总 体 来 说 ,该 算法 的 适应 性 强 , 尤其 适用 于 样本 容量 比较 大 的 上 自动 分 类 问题 ， 
而 对 于 那些 样本 容量 较 小 的 分 类 问题 ， 采 用 这 种 算法 比较 容易 产生 误 分 。 


4.3.3 贝 叶 斯 分 类 





1. 贝 叶 斯 分 类 原理 

贝 叶 斯 分 类 是 一 类 分 类 算法 的 总 称 ， 这 类 算法 均 以 贝 叶 斯 定理 为 基础 ， 故 统 
称 为 贝 叶 斯 分 类 。 

贝 叶 斯 分 类 是 一 类 利用 概率 统计 知识 进行 分 类 的 算法 ， 其 分 类 原理 是 贝 叶 斯 
定理 。 贝 叶 斯 定理 是 由 18 世纪 概率 论 和 决策 论 的 早期 研究 者 Thomas Bayes 提出 
的 ， 故 用 其 名 字 命 名 。 

幢 叶 斯 定理 (Bayes′”theorem) 是 概率 论 中 的 一 个 结果 ， 它 与 随机 变量 的 条 
件 和 概率 以 及 边缘 概率 分 布 有 关 。 在 有 些 关 于 概率 的 解说 中 ， 贝 叶 斯 定理 能 够 告知 
我 们 如 何 利 用 新 证 据 修 改 已 有 的 看 法 。 通 常 ， 事 件 A 在 事件 B (发 生 ) 的 条 件 下 
的 概率 ， 与 事件 B 在 事件 A 的 条 件 下 的 概率 是 不 一 样 的 ; 然而 ， 这 两 者 是 有 确定 
的 关系 ， 贝 叶 斯 定理 就 是 这 种 关系 的 陈述 。 

假设 XX 了 是 一 对 随机 变量 , 它们 的 联合 概率 P(X =x,Y=y) 古 指 X 取 值 x 且 
Y 取 值 y 的 概率 。 条 件 概 率 是 指 一 个 随机 变量 在 为 一 个 随机 变量 取 值 已 知 的 情况 
下 取 茶 一 特定 值 的 概率 。 例 如 ， 条 件 概率 P(Y = y| 匀 =x) 是 指 在 变量 X 取 值 x 的 
情况 下 ， 变 量 了 取 值 > 的 概率 。 久 和 了 的 联合 概率 和 条 件 概 率 满足 如 下 关系 : 


























P(Y,X)=P(Y|X)P(X)= P(X|Y)P(OY) (4-70 ) 
对 式 《〈4-70) 变形 ， 可 得 到 下 面 的 公式 ， 称 为 贝 叶 斯 定理 : 
pO Ix) -7 OP (4-71 ) 
P(X) 





贝 叶 斯 定理 很 有 用 ， 因 为 它 允 许 我 们 用 先 验 概率 P(Y) 、 条 件 概率 P(X | 和 
证 据 P(X) 来 表示 后 验 概率 。 而 在 贝 叶 斯 分 类 右 中 ， 杆 素 贝 叶 斯 最 为 第 用 , 接 下 来 
将 介绍 朴素 贝 叶 斯 的 原理 。 

2. 朴素 贝 叶 斯 分 类 原理 

疏 系 贝 叶 斯 分 类 是 一 种 十 分 简单 的 分 类 算法 ， 之 所 以 如 此 命名 ， 是 因为 这 种 
方法 的 思想 真 的 很 朴素 。 朴 素 贝 叶 斯 的 思想 基础 是 这 样 的 : 对 于 给 出 的 待 分 类 项 ， 
求解 在 此 项 出 现 的 条 件 下 各 个 闫 别 出 现 的 概率 ， 哪 个 最 大 ， 就 认为 此 行 分 类 项 属 
于 哪个 类 列 。 通 俗 来 次 ， 例 如 ， 在 医生 给 患者 看 病 时 ， 患 者 所 描述 的 症状 为 打响 
哺 ， 在 患者 还 没有 做 任何 检查 之 前 ， 医 生 仅 能 根据 通 并 情况 判断 患者 为 感冒 引起 
的 打 喷 吓 ， 因 为 由 感冒 引起 的 打 喷 吓 概率 比较 大 。 在 我 们 没有 其 他 信息 可 以 参考 
的 时 候 ， 我 们 选择 信任 较 大 概率 的 事件 ， 这 融 是 朴素 贝 叶 斯 的 基本 思想 。 
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朴 聂 贝 叶 斯 分 类 需 以 简单 的 结构 和 民 好 的 性 能 受到 人 们 的 关注 ， 是 最 优秀 的 
分 类 喜之 一 。 朴 隶 贝 叶 斯 分 类 需 建 立 在 一 个 闫 条件 独立 性 假设 《〈 朴 隶 假 设 ) 基础 
之 上 : 给 定 类 节点 (变量 ) 后 ， 各 属性 节点 《变量 ) 之 间 相 互 独立 。 根 据 朴 系 幢 
叶 斯 的 类 条 件 独 立 假 设 ， 有 : 


P(X|c)=TIPCx, |c) (2 
k=1 








条 件 概 率 P(Xi|C,) ，P(X,|C,)，…，P(X,|C;)， 可 以 从 训练 数据 集 求 得 。 根 
据 此 方法 ， 对 一 个 未 知 类 别 的 样本 X， 可 以 先 分 别 计 算出 X 属于 每 一 个 类 别 C 的 
概率 P(X|C,)P(C,)， 然 后 选择 其 中 概率 最 大 的 类 别 作 为 其 类 别 。 

朴素 贝 叶 斯 分 类 的 步骤 如 下 : 

步骤 1: 设 x= fo;,0Q 为 一 个 竺 分 类 项 ， 而 每 个 4 为 x 的 一 个 特征 属性 。 

步骤 2: 有 类 别 集 合 C = { 7。 

步骤 3: 计算 Py | 35，PO OO，…，POn 2。 

步 又 4: 如 条 P(yi | 如 =max{tPOn 1x),P(y, | 7),…,P(y, OO， 则 xe y,。 

那么 现在 的 关键 就 是 如 何 计算 步骤 3 中 各 个 条 件 的 概率 ， 我 们 可 以 这 么 做 : 

(QD 找到 一 个 已 知 分 类 的 待 分 类 项 集合 ， 这 个 集合 叫 作 训练 样本 集 。 

@ 统计 得 到 在 各 类 别 下 各 个 特征 属性 的 条 件 概 紊 估计 ， 即 

Pa | y1), Pla; | y1),**, Pla,, | y1); Pla | y,), Pla, | y,),*…, Pla,, | y,); 
,Pla | y,), Pla | y,),…, Pla,, | y,) 

(3) 如果 各 个 特征 属性 是 条 件 独立 的 ， 则 根据 贝 叶 斯 定理 有 如 下 推导 : 
P(x|y,)P(y,) 

P(X) 

因为 分 母 对 于 所 有 类 别 为 常数 ， 因 此 只 要 将 分 子 最 大 化 即 可 ， 因 为 各 特征 属 
性 是 条 件 独立 的 ， 所 以 有 


P(x|y)P(Y;)= Pla | yy)P | y,)… Pl(a,, | y)POD)= PO IPG | 7;) 








P(y |x) = (4-73 ) 





(4_74) 
根据 上 述 分 析 ， 朴 素 贝 叶 斯 分 类 的 流程 可 以 由 图 4-15 表示 《暂时 不 考虑 
验证 )。 
可 以 看 到 ， 整 个 朴素 贝 叶 斯 分 类 分 为 三 个 阶段 : 
第 一 阶段 :准备 工作 阶段 。 这 个 阶段 的 任务 是 为 朴 系 贝 叶 斯 分 类 做 必要 的 准 
备 ， 主 要 工作 是 根据 具体 情况 确定 特征 属性 ， 并 对 每 个 特征 属性 进行 适当 划分 ， 
然后 由 人 对 一 部 分 待 分 类 项 进行 分 类 ， 形 成 训练 样本 。 这 一 阶段 的 输入 是 所 有 待 
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准备 工作 阶段 


3$ 


确定 特征 属性 获取 训练 样本 











对 每 个 类 别 计算 P(y) 





分 
类 
器 
训 
对 每 个 特征 属性 计算 | 估 
所 有 划分 的 条 件 概率 让 





对 每 个 类 别 计算 
P(x|yi)P(y;) 





以 P(xly)PQ) 的 最 大 
项 作为 x 的 所 属 类 别 


一 


应 用 阶段 
图 4-15 ”朴素 贝 叶 斯 算法 分 类 流程 图 


分 类 数据 ， 输 出 是 特征 属性 和 训练 样本 。 这 一 阶段 是 整个 朴素 贝 叶 斯 分 类 中 唯一 
需要 人 工 完 成 的 阶段 ， 其 质量 将 对 整个 过 程 有 重要 影响 ， 分 类 峰 的 质量 在 很 大 程 
度 上 由 特征 属性 、 特 征 属性 划分 及 训练 样本 决定 。 

第 二 阶段 : 分 类 器 训练 阶段 。 这 个 阶段 的 任务 就 是 生成 分 类 器 ， 主 要 工作 是 
计算 每 个 类 别 在 训练 样本 中 的 出 现 频率 及 每 个 特征 属性 划分 对 每 个 类 别 的 条 件 概 
率 估 计 ， 并 记录 结果 。 其 输入 古 特征 属性 和 训练 样本 ， 输 出 是 分 类 器 。 这 一 阶段 
是 机 械 性 阶段 ， 根 据 前 面 讨论 的 公式 可 以 由 程序 自动 计算 完成 。 

第 三 阶段 : 应 用 阶段 。 这 个 阶段 的 任务 是 使 用 分 类 器 对 竺 分 类 项 进行 分 类 ， 
其 输入 是 分 类 右 和 竺 分 类 项 ， 输 出 是 竺 分 类 项 与 类 别 的 映射 关系 。 这 一 阶段 也 
机 械 性 阶段 ， 由 程序 完成 。 

朴素 贝 叶 斯 算法 成 芯 的 前 提 是 各 属性 之 间 相 互 独立 。 当 数据 集 满 足 这 种 独立 
性 假设 时 ， 分 类 的 准确 度 较 高 ， 人 否则 可 能 较 低 。 另 外 ， 访 算法 没有 分 类 规则 输出 。 

在 许多 场合 ， 朴 素 贝 时 斯 (Naive Bayes，NB ) 分 类 可 以 与 决策 树 和 神经 网 络 
分 类 算法 相 刀 美 ， 该 算法 能 运用 到 大 型 数据 库 中 ， 且 方法 简单 、 分 类 准确 率 高 、 
速度 快 。 因 为 贝 叶 斯 定理 假设 一 个 属性 值 对 给 定 类 的 影响 独立 于 其 他 的 属性 值 ， 
而 此 假设 在 实际 情况 中 经 党 是 不 成 并 的 ， 所 以 其 分 类 准确 率 可 能 会 下 降 。 为 此 ， 
出 现 了 许多 降低 独立 性 假设 的 贝 叶 斯 分 类 算法 ， 如 TAN (Tree Augmented Bayes’ 
Network) 算法 、 贝 叶 斯 网 络 分 类 器 (Bayesian Network Classifier，BNC )。 

3. 朴素 贝 叶 斯 特点 

朴 聂 贝 叶 斯 分 类 器 一 般 上 共有 以 下 特点 。 

(DD 人 徐 单 、 高 效 、 健 壮 。 面 对 孤立 的 噪声 点 ， 朴 素 贝 叶 斯 分 类 器 是 健壮 的 ， 
为 在 从 数据 中 估计 条 件 概 率 时 ， 这 些 点 被 平均 ， 另 外 朴素 贝 叶 斯 分 类 器 也 可 以 处 
理 属性 值 遗漏 问题 。 而 面 对 无 天 属性 ， 该 分 类 器 依然 是 健壮 的 。 因 为 如 果 X, 是 无 
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关 属 性 ， 那么 P(X,|Y) 几乎 变 成 了 均匀 分 布 , X, 的 类 条 件 概率 不 会 对 总 的 后 验 概率 
的 计算 产生 影响 。 
@ 相关 属性 可 能 会 降低 朴素 贝 叶 斯 分 类 器 的 性 能 , 因为 对 这 些 属性 , 条 件 独 
立 的 假设 已 不 成 立 。 
4.3.4 分 类 的 评判 


1. 正确 率 

在 介绍 系列 指标 之 前 ， 先 明确 以 下 4 个 基本 的 定义 : 

Q) True Positive《7TP): 指 模 型 预测 为 正 (1) 的 ,并且 实际 上 也 的 确 是 正 (1) 
的 观察 对 象 的 数量 。 

(2 True Negative (TN): 指 模 型 预测 为 负 (0) 的 , 并 且 实 际 上 也 的 确 是 负 〈0) 
的 观察 对 象 的 数量 。 

(3) FalsePositive (FP): 指 模型 预测 为 正 〈1) 的 ， 但 是 实际 上 是 负 《〈0) 的 观 
察 对 象 的 数量 。 

(4) FalseNegative (FN): 指 模型 预测 为 负 (0) 的 ， 但 是 实际 上 是 正 (1) 的 
观察 对 象 的 数量 。 

上 述 4 个 基本 定义 可 以 用 一 个 表格 形式 简单 地 体现 ， 见 表 4-2。 

















表 4-2 ”二 类 问题 的 混淆 矩阵 


关 1 站 0 
>» 一 » 入 pA 
实际 的 类 | 


1 TP FN 


基于 上 面 的 4 个 基本 定义 ， 可 以 延伸 出 下 列 评价 指标 : 
Q) Accuracy〔 正 确 率 ): 模型 总 体 的 正确 率 ， 是 指 模型 能 正确 预测 、 识 别 1 
和 0 的 对 象 数 量 与 预测 对 象 忌 数 的 比值 ， 公 式 为 
Accuracy= I (4—75) 
TP+FP+FN+IN 
(2 Errorrate《〈 错 误 率 ): 模型 总 体 的 错误 率 ， 是 指 模型 错误 预测 、 错 误 识 别 1 
和 0 的 观察 对 象 的 数量 与 预测 对 象 总 数 的 比值 ， 即 1 减 去 正确 率 的 和 震 ， 公 陈 为 
Errorrate=1— 人 (4—76) 
TP+FP+FN+IN 
(3) Sensitivity (灵敏 性 ): 又 叫 击 中 率 或 真正 率 ， 模 型 正确 识别 为 正 (1) 的 
对 象 占 全 部 观察 对 象 中 实际 为 正 〈1) 的 对 象 数 量 的 比值 ， 公 式 为 


炎 | 羽 
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Sensitivity= a (4—77) 
TP+FN 
4) Specificity〈 特 效 性 ): 又 叫 真 负 率 ， 模 型 正确 识别 为 负 0) 的 对 象 占 全 
部 观察 对 象 中 实际 为 负 《〈《0) 的 对 象 数 量 的 比值 ， 公 式 为 
TN 
IN+rFP 
(5) Precision (精度 ): 模型 正确 识别 为 正 (1) 的 对 象 占 模 型 识别 为 正 (1) 
的 观察 对 象 总 数 的 比值 ， 公 式 为 
Precision= ee (4—79) 
TP+FP 
(6) False Positive Rate (FPR, 错 正 率 ): 又 叫 假 正 率 , 模型 错误 地 识别 为 正 (1) 
的 对 象 数量 占 实际 为 负 《〈0) 的 对 象 数量 的 比值 ， 即 1 减 去 真 负 率 Spedficity， 公 
us 








(4—78) 





Specificity= 











PR L 
IN+ FP 
(7 Negative Predictive Value (CNPV， 负 元 正确 率 ): 模型 正确 识别 为 负 “(0) 
的 对 象 数 量 占 模型 识别 为 负 〔0) 的 观 聚 对 象 总 数 的 比值 ， 公 式 为 
NPV= | 
TN + FN 
False Discovery Rate (FDR， 正 元 错误 率 ): 模型 错误 识别 为 正 〈1) 的 对 
象 数量 占 模 型 识别 为 正 〈1) 的 观察 对 象 忌 数 的 比值 ， 公 式 为 
EP 


(4—80) 








(4—81) 








FDR= 一 一 一 (4—82) 
TP+rFP 
可 以 很 容易 地 发 现 ， 正 确 率 是 灵敏 性 和 特效 性 的 函数 : 
a TP+rFN oe TN+rFP 
Accuracy = 9e1811vip 一 .+ Specificlfy 一 一 一 
TP+FP+FN+IN TP+FP+EFN+IN 
(4—83) 


上 述 各 种 基本 指标 ， 从 各 个 角度 对 模型 的 表现 进行 了 评 佑 ， 在 实际 业务 应 用 
场景 中 ， 可 以 有 选择 地 采用 其 中 的 东 些 指标 〈 不 一 定 全 部 采用 )， 关 键 要 看 具体 的 
项 目 背景 和 业务 场景 ， 针 对 其 侧重 点 来 选择 。 

另外 ， 上 述 各 种 基本 指标 看 上 去 很 容易 让 人 混 消 ， 尤 其 是 与 业务 方 讨 论 这 些 
指标 时 更 是 如 此 。 而 且 这 些 指标 虽然 从 各 个 不 同 角度 对 蛋 型 效 末 进行 了 评价 ， 但 
有 标 之 则 是 彼此 分 艇 的 ， 因 此 使 用 起 来 需要 人 为 地 进行 整合 。 

作为 示例 ， 图 4-16 展示 了 录 生 例 中 各 分 类 算法 正确 率 的 评估 图 。 
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各 方法 分 类 正确 率 


人 
0.7 
ER 
RS 
所 0.5 
涵 
R04 
0.3 
0.2 
0 一 一 赴 一 一 一 -是 一 一 一 和 一 一 一 十 - 一 一 -时 一 一 一 午 一 一 一 一 
| | | | | 


KNN NBayes NNet GLM LDA SVM 
方法 简称 
4-16 各 分 类 算法 的 正确 率 评估 图 


























2. ROC 曲线 

ROC 曲线 是 一 种 有 效 比 较 ( 或 对 比 ) 两 个 (或 两 个 以 上 ) 二 元 分 类 模型 (Binary 
Model) 的 可 视 工具 ，ROC (Receiver Operating Characteristic， 接 收 者 运行 特征 ) 
曲线 来 源 于 信号 检测 理论 ， 它 显示 了 给 定 模型 的 灵敏 性 〈Sensitivity)、 真 正 率 与 
假 正 雍 (False Positive Rate) 之 间 的 比较 评定 。 给 定 一 个 二 元 分 类 问题 ， 我 们 通 
过 对 测试 数据 集 的 不 同 部 分 所 显示 的 模型 可 以 正确 识别 “1” 实 例 的 比例 与 模型 将 
“0” 实 例 错误 地 识别 为 “1” 的 比例 进行 分 析 ， 来 进行 不 同 模型 的 准确 率 的 比较 评 
定 。 真 正 率 的 增加 是 以 假 正 率 的 增加 为 代价 的 ，ROC 曲线 下 面 的 面积 融 是 比较 模 
型 准确 度 的 指标 和 依据 。 面 积 大 的 模型 对 应 的 模型 准确 度 要 高 ， 也 就 是 要 择优 应 
用 的 模型 。 面 积 越 接近 0.5， 对 应 模型 的 准确 率 就 越 低 。 

图 4-17 是 两 个 分 类 模型 所 对 应 的 ROC 曲线 图 ， 其 横 轴 是 假 正 率 ， 其 纵 轴 是 
真正 率 ， 该 图 同时 显示 了 一 条 对 角 线 。ROC 曲线 离 对 角 线 越 近 ， 模 型 的 准确 率 就 
越 低 。 从 排序 后 的 最 蝇 “ 正 ” 概 识 的 观察 值 开 始 ， 随 看 概率 从 高 到 低 逐 渐 下 降 ， 
相应 的 观察 群体 里 真正 的 “ 正 ” 群 体 则 会 逐渐 减少 ， 而 假 “ 正 ” 真 “ 负 ”的 群体 
则 会 逐渐 增多 ，ROC 曲线 也 从 开始 的 陡峭 逐渐 变 为 水 平 。 图 中 最 上 面 的 曲线 所 代 
表 的 神经 网 络 模型 (Neural) 的 准确 率 束 要 高 于 其 下 面 的 曲线 所 代表 的 他 辑 回 归 
模型 (Reg) 的 准确 率 。 

要 绘制 ROC 曲线 ,首先 要 对 模型 所 做 的 判断 即 对 应 的 数据 排序 ,把 经 过 模型 
判断 后 的 观察 值 预测 为 正 〈《1) 的 概率 从 高 到 低 进 行 排序 “最 前 面 的 应 该 是 模型 判 
靳 最 可 能 为 “ 正 ” 的 观察 值 )，ROC 曲线 的 纵 轴 《垂直 轴 ) 表示 真正 率 〈 模 型 正 
确 判 断 为 正 的 数量 占 实 际 为 正 的 数量 的 比值 )，ROC 曲线 的 横 轴 (水 平 轴 ) 表示 
假 正 鞭 〈 模 型 错误 判断 为 正 的 数量 占 实 际 为 负 的 数量 的 比值 )。 有 其 体 绘 制 时 ， 要 从 
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各 方法 ROC 曲 线 























0 0.1 02 03 04 03 06 0.7 08 09 1 
假 正 率 [=FPH7N+HFP)] 


4-17 两 个 分 类 模型 所 对 应 的 ROC 曲线 图 


左下 角 开 始 ， 在 此 真正 率 和 假 正 率 都 为 0。 按 照 刚 才 概 率 从 高 到 低 的 顺序 ， 依 次 
针对 每 个 观察 值 实际 的 “ 正 ? 或 * 负 ”进行 ROC 图 形 的 绘制 ,如果 它 是 真正 的 “ 正 ”， 
则 在 ROC 曲线 上 癌 上 移动 并 绘制 一 个 点 ;如 果 它 是 真正 的 “ 负 ” 则 在 ROC 曲 
线 上 回 右 移动 并 绘制 一 个 点 。 对 于 每 个 观察 值 都 重复 这 个 过 程 ,〈 按 照 预 测 为 “ 正 ?” 
的 概率 从 高 到 低 的 顺序 来 绘制 )， 每 次 对 实际 为 “ 正 ” 的 在 ROC 曲线 上 同上 移动 
一 个 点 ， 对 实际 为 “ 负 ” 的 在 ROC 曲线 上 向 右 移动 一 个 点 。 当 然 ， 很 多 数据 挖掘 
软件 包 已 经 可 以 自动 实现 对 ROC 曲线 的 展示 , 所 以 更 多 时 候 只 是 需要 知道 其 中 的 
原理 ， 并 且 知 道 如 何 评价 具体 模型 的 ROC 曲线 即 可 。 


4.3.5 小结 


分 类 是 数据 挖掘 的 重要 方法 之 一 ， 到 目前 为 止 , 已 有 多 种 基于 各 种 思想 和 
理论 基础 的 分 类 算法 ， 算 法 的 实际 应 用 也 已 趋 于 成 熟 。 但 实践 证 明 ， 没 有 一 种 
分 类 算法 对 所 有 的 数据 类型 都 优 于 其 他 分 关 算 法， 每 种 相对 较 优 的 算法 都 有 气 
具体 的 应 用 环境 。 以 上 简单 介绍 了 各 种 主要 的 分 类 方法 ， 应 该 说 部 有 其 各 目 不 
同 的 特 后 。 

本 市 介绍 的 几 种 分 类 方法 部 是 较为 沼 用 的 。 对 于 每 种 方法 ， 可 研究 的 内 容 也 
很 多 ， 也 很 复杂 ， 这 里 介绍 的 都 是 最 基础 和 最 典型 的 应 用 ， 建 议 读者 先 了 解 这 些 
方法 的 基本 形式 ， 随 看 应 用 的 深入 ， 再 逐渐 拓展 目 己 感 兴趣 的 方法 。 这 里 介绍 的 
这 些 方法 ， 虽 然 都 是 比较 简单 的 形式 ， 但 在 实践 中 却 是 最 为 实用 的 技术 ， 在 实践 
中 不 是 方法 越 复杂 越 好 ， 而 是 越 简 单 、 越 稳定 、 越 容易 解释 越 好 。 

在 选择 分 类 方法 时 除了 考虑 准确 率 ， 通 第 还 要 羔 顾 其 他 性 能 ， 比 如 :; 计算 速 
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度 ， 包 括 构 造 模 型 以 及 使 用 模型 进行 分 类 的 时 间 ， 强 壮 性 ， 模 型 对 噪声 数据 或 空 

缺 值 数据 正确 预测 的 能 力 ; 可 伸缩 性 ， 对 于 数据 量 很 大 的 数据 集 ， 有 效 构造 模型 

的 能 力 ; 模型 描述 的 简洁 性 和 可 解释 性 ， 模 型 描述 越 简洁 、 越 容易 理解 ， 则 越 受 
欢迎 。 





诊断 方法 





离 群 点 诊断 方法 简称 诊断 方法 ， 是 数据 挖掘 领域 中 的 一 项 重要 的 挖掘 扩 术 ， 
其 目标 是 发 现 数据 集中 行为 异 第 的 少量 数据 对 象 ， 这 些 数 据 对 象 被 称 为 离 群 点 或 
了 沂 立 点 (Outlier)。 离 群 点 通常 在 数据 预 处 理 过 程 中 被 认为 是 噪声 或 异常 而 被 清理 。 
许多 挖 据 算 法 《比如 聚 类 方法 ) 也 部 试图 降低 离 群 扣 的 影响 ， 其 至 完全 排除 它们 。 
然而 由 于 离 群 点 既 有 可 能 是 噪声 信息 也 有 可 能 是 有 用 信息 ， 随 意 删除 离 群 数据 可 
能 导 人 臻 有 用 信息 的 丢失， 所 以 通过 离 群 点 诊断 发 现 和 利用 在 离 群 点 中 有 用 信息 其 
有 非常 重要 的 意义 。 

事实 上 ， 在 东 些 应 用 领域 中 研究 离 群 点 的 弄 种 行为 更 能 用 现 隐 藏 在 数据 集中 
有 价值 的 知识 。 例 如 ， 飞 机 性 能 统计 数据 中 的 一 个 离 群 点 可 能 是 飞机 及 动机 的 一 
个 设计 缺陷 ， 地 理 图 像 上 的 一 个 离 群 反 可 能 标志 看 一 个 危险 对 象 〈( 如 埋藏 生化 武 
器 )， 网 络 系统 中 的 一 个 离 群 点 还 可 能 是 对 某 个 恶意 入 侵 的 精确 定位 。 离 群 点 挖掘 
还 可 应 用 于 信用 卡 欺诈、 金融 审计 、 网 络 监控 、 电 子 商 务 、 故 障 检测 、 恶 劣 天 和 气 
预报 、 医 药 研 究 、 客 户 卉 第 行为 检 训 和 职业 运动 员 成 绩 分 析 等 。 

本 市 将 对 离 群 点 诊断 党 用 的 方法 进行 介绍 ， 并 给 出 各 种 算法 的 优 缺 点 比较 和 
算法 复 洒 度 分 析 ， 最 后 结合 相关 算法 给 出 离 群 点 挖掘 的 一 些 应 用 实例 。 


4.4.1 ” 离 群 点 诊断 概要 


为 了 使 离 群 点 不 影响 数据 分 析 模 型 的 精度 和 准确 度 ， 可 通过 一 系列 的 算法 找 
出 数据 中 的 离 群 扣 ， 然 后 针对 离 群 点 进行 处 理 以 提高 数据 质量 。 

1. 离 群 点 诊断 的 定义 

离 群 点 诊断 (或 称 离 群 点 挖掘 〉 可 以 描述 为 : 给 出 款 个 数据 点 或 对 象 的 集合 ， 
以 及 预期 的 离 群 点 的 数目 上， 发 现 与 剩余 的 数据 相 比 是 显著 差异 的 、 异 各 的 或 不 
一 致 的 前 大 个 对 象 。 因 此 ， 离 群 点 诊断 可 以 看 作 是 在 给 定 的 数据 集合 中 定义 离 群 
点 ， 并 找到 一 个 有 效 的 方法 来 挖掘 出 这 样 的 离 群 点 。 

离 群 点 是 指数 值 中 ， 远 离 数值 的 一 般 水 平 的 极端 大 值 和 极 问 小 值 。 形 成 离 
群 点 的 主要 原因 有 : 首 移 可 能 是 采样 中 的 误 状 ， 如 记录 的 俩 误 、 工 作 人 员 出 现 
笔 误 、 计 算 错误 等 ， 都 有 可 能 产生 极 病 大 值 或 者 极端 小 值 。 其 次 可 能 是 被 研究 
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现象 本 身 由 于 受 各 种 偶然 非 正 常 的 因素 影响 而 引起 的 。 例 如 ， 在 人 口 死亡 序列 
中 ， 由 于 某 年 发 生 了 地 震 ， 使 该 年 度 死 亡 人 数 剧 增 ， 形 成 离 群 点 ; 在 股票 价格 
序列 中 ， 由 于 受 某 项 政策 出 台 或 某 种 谣传 的 刺激 ， 都 会 出 现 极 增 、 极 减 现 象 ， 
变 为 离 群 点 。 

不 论 是 何 种 原因 引起 的 离 群 点 ， 对 以 后 的 分 析 都 会 造成 一 定 的 影响 。 从 造成 
分 析 的 困难 来 看 ， 统 计 分 析 人 员 不 希望 序列 中 出 现 离 群 点 ， 因 为 离 群 点 会 直接 影 
响 模 型 的 拟 合 精度 ， 甚 至 会 得 到 一 些 虚 伪 的 信息 。 因 此 ， 离 群 点 往往 被 分 析 人 员 
看 作 是 一 个 “ 坏 值 >。 但 是 ， 从 获得 信息 来 看 ， 离 群 点 提供 了 很 重要 的 信息 ， 它 不 
仅 提示 我 们 认真 检查 采样 中 是 否 存在 差错 ， 在 进行 分 析 前 认真 确认 ， 而 且 当 确认 
离 群 点 是 由 于 系统 受 外 部 突 发 因素 刺激 而 引起 的 时 候 ， 它 会 提供 相关 的 系统 稳定 
性 、 灵 敏 性 等 重要 信息 。 

2. 离 群 点 诊断 方法 分 类 

目前 ， 人 们 已 经 提出 了 大 量 关 于 离 群 点 挖掘 的 算法 。 这 些 算 法 大 致 上 可 以 分 
为 以 下 几 类 : 基于 统计 学 或 模型 的 方法 、 基 于 距离 或 邻近 度 的 方法 、 基 于 密度 的 
方法 和 基于 聚 类 的 方法 ， 这 些 方法 一 般 称 为 经 典 的 离 群 点 挖掘 方法 。 近 年 来 ， 有 
不 少 学 者 从 关联 规则 、 模 糊 集 和 人 工 智 能 等 其 他 方面 出 发 提出 了 一 些 新 的 离 群 点 
安 掘 算法， 比较 典型 的 有 基于 关联 的 方法 、 基 于 模糊 集 的 方法 、 基 于 人 工 神经 网 
络 的 方法 、 基 于 遗传 算法 或 克隆 选择 的 方法 等 。 


4.4.2 ”基于 统计 的 离 群 点 诊断 


1. 理论 基础 

最 早 的 离 群 点 挖 抉 算法 大 多 是 基于 统计 学 原理 或 分 布 模型 实现 的 ， 通 常 可 以 
分 为 基于 分 布 的 方法 和 基于 深度 的 方法 两 类 。 一 般 地 ， 讨 论 基 于 统计 的 离 群 点 控 
掘 主要 指 的 是 基于 分 布 的 方法 。 

基于 统计 的 离 群 点 诊断 的 基本 思想 是 基于 这 样 的 事实 : 符合 正 态 分 布 的 对 象 
〈 值 ) 出 现在 分 布 尾 部 的 机 会 很 小 。 例 如 ， 对 象 落 在 距 均值 3 个 标准 差 的 区 域 以 外 
的 概率 仅 有 0.0027。 更 一 般 地 ， 当 *x 为 属性 值 时 ， 上 寺 兰 c 的 概率 随 c 的 增加 而 迅 
速 减 小 。 设 w= p(|x| 宇 c)， 表 4-3 显示 当 分 布 为 N (0，1) 时 ,cc 的 某 些 样本 值 
和 对 应 的 w 值 。 从 表 4-3 可 以 看 出 ， 离 群 值 超过 4 个 标准 差 的 值 出 现 的 可 能 性 是 
月 小 性 










































































表 4-3 ” 荡 在 标准 差 的 中 心 区 域 以 外 的 概率 
N (0，1) 的 w 0.317 3 0.133 6 0.045 5 0.012 4 0.002 7 0.000 $ 0.000 1 
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为 了 更 清晰 地 表现 基于 统计 的 离 群 点 诊断 原理 , 可 以 绘制 图 4-18 所 示 的 离 群 
点 分 布 带 示 意图 。 该 图 在 实践 中 具有 重要 的 意义 ， 对 于 观测 样本 x， 我 们 可 以 这 





样 理解 该 图 : 
@ 如 果 此 点 在 上 、 下 警告 线 之 间 区 域内 ， 则 数 。 
据 处 于 正常 状态 。 





ia 

控制 线 之 间 的 区 域内 ， 则 提示 质量 开始 变 劣 ， 可 能 存 

在 “ 离 群 ”倾向 。 
ST / 











H—30 
已 经 “ 离 群 ” 这些 点 即 被 诊断 出 的 离 群 点 。 
如 琳 (正常 对 象 的 ) 一 个 感 兴趣 的 属性 的 分 布 是 > 











具有 均值 u 和 标准 差 o 的 正 态 分 布 , 则 可 以 通过 变换 
z=(x- /1o 转换 为 标准 正 态 分布 N (0, 1)。 通常 1， 图 千 18 离 群 点 分 布 带 示意 图 
和 o 是 未 知 的 , 可 以 通过 样本 均值 和 样本 标准 差 来 估 
计 。 实 践 中 ， 当 观测 值 很 多 时 ， 这 种 估计 的 效果 很 好 ， 另 外， 由 概率 统计 中 的 大 
数 定律 可 知 ， 在 大 样本 的 情况 下 可 以 用 正 态 分 布 近似 其 他 分 布 。 

基于 统计 的 方法 需要 使 用 标准 统计 分 布 (如 标准 正 态 分 布 来 拟 合 数据 点 ， 
然后 根据 概率 分 布 模型 采用 不 一 致 性 检验 来 确立 离 群 点 。 因 此 基于 统计 的 离 群 点 
诊断 方法 要 求 事 先知 道 数 据 集 的 统计 分 布 、 分 布 参数 (如 均值 和 方差 )、 预 期 的 高 
群 点 数目 和 离 群 点 类 型 等 。 

基于 分 布 的 方法 的 优 缺 点 都 很 明显 。 其 优点 主要 是 易于 理解 ， 实 现 起 来 也 比 
较 方 便 ， 并 且 对 数据 分 布 满足 某 种 概率 分 布 的 数值 型 单 维 数据 集 较为 有 效 。 但 在 
多 数 情况 下 数据 分 布 是 未 知 的 ， 也 就 很 难 建立 某 种 确定 的 概率 分 布 模型 。 同 时 ， 
在 实际 中 往往 要 求 在 多 维 空间 中 发 现 离 群 点 ， 而 绝 大 多 数 统计 检验 是 针对 单个 属 
性 的 。 因 此 ， 当 没有 特定 的 检验 时 ， 基 于 分 布 的 方法 不 能 确保 发 现 所 有 的 异常 ， 
或 者 观测 到 的 分 布 不 能 恰当 地 被 任何 标准 的 分 布 来 拟 合 e。 




















Grabbs 守 出 了 统计 量 g8 导 x 一 X|/s 的 分 布 。 取 显 闭 水 平 a， 可 以 得 到 临界 值 
8, ， 使 得 : 


P(|x,—Xx| 宇 g0s)=0 (4—84) 





行 东 一 个 训 量 数据 雹 满足 下 去 时 ， 则 认为 数据 为 卉 各 数据 而 把 它 别 除 : 


日 Pangning Tan 等 . 数据 挖掘 导论 [M]. 范 明 等 译 . 北京 : 人 民 邮 电 出 版 社 ，2014. 
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x —X| 宇 gos (4—85) 
式 中 ，8g 可 以 通过 查询 专门 的 g, 表 得 到 。 
如 来 一 次 可 以 判断 两 个 或 两 个 以 上 的 数据 是 异 第 数据 ， 则 只 将 其 中 使 得 
一 区 最 大 的 数据 吻 除 。 然 后 ， 午 新 计算 做 、g。、s， 再 一 次 碗 代 寻 找 异 第 数据 。 
如 此 循环 进行 ， 直 到 找 不 出 离 群 点 为 止 。 























具体 算法 如 下 : 

QD 求 出 样本 均值 xX 和 样本 标准 差 s。 根 据 给 定 的 显著 水 平 a 和 样本 容量 n， 
得 表 求 出 g,。 

@ 计算 | 一 司 ,i=1,2,…n， 找 出 x 使 得 : 


x —X|= max |x, —| (4—86) 
l<i<n 


@ 若 有 |% -天 入 gos ， 则 认为 数据 中 无 异常 数据 ， 否 则 认为 是 异常 数据 ， 
将 之 从 数据 中 吻 除 。 

重复 步骤 ~@， 直 到 数据 中 无 异常 数据 为 止 。 

在 实践 中 ， 对 于 临界 值 8。， 从 严格 的 角度 ， 可 以 通过 查 表 给 出 具体 的 值 。 但 
通常 的 做 法 就 是 直接 给 出 ， 比 如 取 1、2 或 3， 甚 至 小 数 。 具 体 取 多 大 的 值 ， 取 决 
于 数据 的 量 及 对 离 群 点 诊断 的 严格 程度 。 

2. 优 皮 与 缺点 

离 群 点 诊断 的 统计 学 方法 具有 坚实 的 基础 ， 建 立 在 标准 的 统计 学 技术 〈 如 分 
布 参数 的 估计 ) 之 上 。 当 存在 充分 的 数据 和 所 用 的 检验 类 型 时 ， 诊 断 离 群 点 非 
常 有 效 。 对 于 单个 属性 ， 存 在 各 种 统计 离 群 点 诊断 方法 。 对 于 多 元 数据 ， 很 难 
同时 对 多 维 数据 使 用 基于 统计 的 离 群 点 诊断 方法 ， 通 常 还 需要 按照 单个 变量 的 
方法 进行 诊断 。 


4.4.3 ”基于 距离 的 离 群 点 诊断 


1. 理论 基础 

基于 距离 的 离 群 点 检测 方法 ， 其 基本 思想 是 如 果 某 个 对 象 远 离 大 部 分 其 他 对 象 ， 
那么 该 对 象 是 离 群 的 。 这 样 做 的 好 处 是 ， 确 定数 据 集 的 有 意义 的 邻近 性 度量 比 确定 
它 的 统计 分 布 更 容易 ， 综 合 了 基于 分 布 的 思想 ， 元 服 了 基于 分 布 方法 的 主要 缺陷 。 

基于 距离 的 离 群 点 诊断 方法 根据 某 个 距离 函数 计算 数据 对 象 之 则 的 距离 ， 最 
早 是 由 Knorr 和 Ng 提出 来 。 他 们 给 出 了 基于 距离 的 离 群 点 的 定义 : 如 果 数 据 集 
合 5 中 对 象 至 少 有 p 部 分 和 对 象 o 的 距离 大 于 d， 则 对 象 o 是 一 个 带 参 数 p 和 4 
的 基于 距离 的 DB) 离 群 点 ， 即 DB (p,qd)。 

基于 距离 方法 的 两 种 不 同 俩 略 : 

第 一 种 策略 是 玉 用 给 定 邻 域 半径 ， 依 据点 的 邻 域 中 包含 的 对 象 多少 来 判定 离 
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群 所。 如 条 一 个 点 的 邻 域 内 包 舍 的 对 象 少 于 整个 数据 集 的 一 定 比例 ， 则 标识 它 为 
离 群 点 ， 也 就 是 将 没有 足够 邻 眉 的 对 象 看 成 是 基于 距离 的 离 群 氮 。 
第 二 种 策略 是 利用 K- 最 近邻 距离 的 大 小 来 判定 离 群 。 使 用 天 -最 近邻 的 距离 度 
量 一 个 对 象 是 否 远 离 大 部 分 点 ,一 个 对 象 的 离 群 程度 由 到 它 的 K- 最 近邻 的 距离 给 定 。 
这 种 方法 对 的 取 值 比较 敏感 。 如 果 大 太 小 《例如 1)， 则 少量 的 邻近 离 群 点 可 能 导 
致 较 低 的 离 群 程度 。 如 果 上 太 大 , 则 点数 少 于 大 的 艇 中 所 有 的 对 象 可 能 部 成 了 离 群 反 。 
定义 : 乓 x 的 离 群 因子 定义 为 





























> yeNGxt) distance( x, y) 
IN(x, Kk)| 

这 里 ， N(x,k) 是 不 包含 x 的 最 近邻 的 集合 ， 其 数学 表示 为 

N(x,k)={y|distance(x, y) 三 k 一 distance(x), y x},IN(x,k)| 是 该 集合 的 大 小 。 

输出 : 离 群 点 对 象 列 表 。 

GD for all 对 象 x do。 

@ 确定 xx 的 三 最 近邻 集合 N (x，k)。 

(3) 确定 x 的 离 群 因子 OF1 (x,，k)。 

(4) end for。 

(5) 对 OF] (x,， k) 降序 排列 ， 确 定 离 群 因子 大 的 辱 干 对 象 。 

(6) return. 

应 注意 : x 的 K- 最 近邻 的 集合 包含 的 对 象 数 可 能 超过 K。 

2. 优 和 点 与 缺点 

基于 距离 的 方法 也 有 比较 明显 的 优 缺 点 。 其 优点 有 以 下 几 方 面 : 

GO 不 必 对 数据 集 的 相关 信息 (数据 服从 哪 种 统计 分 布 模型 、 数 据 类 型 特点 等 ) 
足够 了 解 ， 只 要 给 出 距离 的 上 度量 并 对 数据 进行 预 处 理 后 ， 束 可 以 找 出 数据 集中 的 
离 群 点 ， 并 且 避 免 了 大 量 的 计算 。 而 大 量 的 计算 正 是 使 观察 到 的 数据 分 布 适合 某 
个 标准 分 布 及 选择 不 一 致 性 检验 所 需要 的 。 

@ 在 理论 上 可 以 处 理 任 意 维 任意 类 型 的 数据 , 元 服 了 基于 统计 的 方法 只 能 较 
好 地 处 理 茶 种 概率 分 布 的 数值 型 单 变量 数据 集 的 缺陷 。 

基于 距离 的 方法 的 缺点 主要 是 当 数 据 集 规模 寞 第 大 时 ， 计 算 复 杂 度 很 高 。 其 
次 是 检测 结果 对 参数 开 的 选择 较 敏 感 ， 对 于 不 同 参 数 ， 结 果 有 很 大 的 不 稳定 性 ， 
而 且 在 高 维 数据 中 应 用 比较 困难 。 最 后 是 对 挖掘 出 的 离 群 点 ， 不 能 区 分 强 离 群 点 
和 弱 离 群 扣 9。 


OF1(x,k) = (4-87) 












































9 昔 秋 明 ， 李 微 等 . 数据 挖掘 技术 应 用 实例 [M]. 北京 :机械 工业 出 版 社 ，2009. 
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4.4.4 基于 密度 的 离 群 点 挖掘 


1. 理论 基础 

当 数 据 集 含 有 多 种 分 布 或 数据 集 由 不 同窗 度 子 集 混合 而 成 时 ， 数 据 是 否 离 群 
不 仅仅 取决 于 它 与 周围 数据 的 距离 大 小 ， 而 且 与 邻 域内 的 密度 状况 有 关 。 这 时 束 
可 以 考虑 用 基于 密度 的 离 群 点 诊断 方法 。 

基于 密 | re 不 同 的 密度 估计 胰 略 来 检测 离 群 点 。 
所 谓 密度 ， 是 指 任 一 点 和 P 点 距离 小 于 给 定 半 径 R 的 邻 域 空 间 数 据点 的 个 数 。 
Breuning 用 局 部 离 群 因子 (LOF) 来 表示 点 的 孤立 程度 ， 离 群 点 就 是 具有 较 高 LOF 
值 的 数据 对 象 。 也 束 是 说 ， 数 据 是 否 是 离 群 点 不 仅仅 取决 于 它 与 周围 数据 的 距离 
大 小 ， 而 且 与 邻 域 内 的 密度 状况 有 天 。 

基于 密度 的 离 群 点 检测 与 基于 邻近 度 的 离 群 点 检测 密切 相关 ， 因 为 密度 通常 
用 邻近 度 定 义 。 一 种 第 用 的 定义 密度 的 方法 是 ， 定 义 密度 为 到 天 个 最 近邻 的 平均 
距离 的 倒数 。 如 采访 距离 小 ， 则 密度 高 ， 反 之 亦 然 。 霖 个 对 象 的 局 部 邻 域 密度 定 












































柯 
density(X, 
density(x, K ) = yeni density(x, y) (4—88) 
N(xX, K) 
还 有 一 个 描述 对 象 密度 的 方法 为 相对 密度 ， 其 定义 为 
d ,K)/IN(x,K 
relative density(x, 天)= 机 (4—89) 


density(x,K) 
其 中 ，N(x,K) 是 不 包含 x 的 K- 最 近邻 的 集合 ，N(x,K) 是 该 集合 的 大 小 ，y 是 一 
个 最 近邻 。 

其 于 相对 密 | I 点 检测 方法 通过 比较 对 象 的 密度 与 它 邻 域 中 对 象 的 平均 
密度 来 检测 离 群 点 。 复 内 靠近 核心 点 的 对 象 的 相对 密度 接近 于 1， 而 处 于 簇 的 边 
te 定义 相对 密度 为 离 群 因子 : 

LOF(x, K)= relative density(x,K) (4—90) 
具体 的 基于 密度 的 离 群 点 诊断 步骤 如 下 : 

Q) {K 是 最 近邻 个 数 }。 

(2) for all 对 象 x do。 

(3 确定 x 的 有 最 近邻 N (x，K)。 

4) 使 用 x 的 最 近邻 ( 即 N (x, K) 中 的 对 象 ),， 确定 x 的 密度 density (x， 天 )。 

(5) end for。 

(6) for all 对 象 x do。 
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@ 确定 x 的 相对 密度 relative density (x，K)， 并 赋值 给 LOF (x，KK)。 

end for。 

(9) 对 LOF (x，K) 降序 排列 ， 确 定 离 群 点 得 分 局 的 右 干 对 象 。 

基于 和 密度 的 离 群 点 挖掘 最 显 阁 的 特点 是 给 出 了 对 象 是 离 群 点 程度 的 定量 度 
量 ， 并 且 即 使 数据 具有 不 同 密度 的 区 域 也 能 够 很 好 地 处 理 。 因 此 ，LOF 能 够 探测 
到 所 有 形式 的 离 群 点 ， 包 括 一 些 不 能 馈 基 于 统计 的 、 距 离 的 和 偏离 的 方法 探测 到 
的 离 群 点 。 基 于 黎 度 的 方法 也 有 缺点 ， 与 基于 距离 的 方法 类 似 ， 当 数据 集 规 模 姑 
常 大 时 复杂 度 会 很 高 。 参考 文献 还 指出 LOF 这 种 基于 局 部 密度 的 离 群 点 检测 算法 
忽视 了 基于 艇 的 离 群 点 的 存在 。 

2. 优 各 与 缺点 

其 于 相对 密度 的 离 群 点 检测 给 出 了 对 象 是 离 群 点 程度 的 定量 上 度量， 并且 即使 
数据 具有 不 同 密度 的 区 城 也 能 够 很 好 地 处 理 。 与 基于 距离 的 方法 一 样 ， 这 些 方 法 
必然 具有 0 lm*) 时 间 复 杂 度 (其 中 m 是 对 象 个 数 )， 虽 然 对 于 低 维 数据 ， 使 用 
专门 的 数据 结构 可 以 将 它 降 低 到 O(Cmlogm), 参数 选择 也 是 困难 的 。 虽 然 标 准 LOF 
算法 通过 观察 不 同 的 K 什 ， 然 后 取 最 大 离 群 点 得 分 来 处 理 该 问题 。 然 而 ， 仍 然 需 
要 选择 这 些 信 的 上 下 界 。 


4.4.$S 基于 聚 类 的 离 群 点 挖掘 


1. 理论 基础 

聚 类 分 析 是 用 来 发 现 数据 集中 强 相 关 的 对 象 组 ， 而 离 群 点 诊断 是 发 现 不 与 其 他 对 
象 组 强 相 关 的 对 象 。 因 此 ， 离 群 点 诊断 和 聚 类 是 两 个 相对 并 的 过 程 。 如 果 在 聚 类 的 结 
果 中 ， 某 个 簇 的 点 比较 少 ， 且 中 心 距离 其 他 簇 义 比较 远 ， 则 该 簇 中 的 点 是 离 群 点 的 可 
伦 性 就 比较 大 ， 因 此 从 这 个 角度 将 聚 类 方法 用 于 离 群 点 诊断 也 是 很 目 然 的 想法 。 

如 上 上 所 述 , 我 们 已 经 了解 了 相关 聚 类 方法 ， 比 如 K-means、 层 次 聚 类 等 方法 。 
它们 都 有 一 定 的 异常 处 理 能 力 ， 但 主要 目标 是 产生 聚 类 ， 即 寻找 性 质 相 同 或 相近 
的 记录 并 归 为 一 类 ， 这 不 同 于 离 群 点 挖掘 的 目的 和 意义 。 

利用 聚 类 方法 诊断 离 群 点 的 一 种 系统 的 方法 是 ， 首 先 聚 类 所 有 的 对 象 ， 然 
后 评估 对 象 属于 艇 (Cluster〉 的 程度 。 对 于 基于 原形 的 肾 类 ， 可 以 用 对 象 到 它 
的 簇 中 心 的 距离 来 上 度量 对 象 属于 簇 的 程度 。 更 一 般 地 ， 对 于 基于 目标 函数 的 聚 
类 技术 ， 可 以 使 用 该 目标 函数 来 评估 对 象 属于 任意 秘 的 程度 。 参 考 文献 给 出 了 
基于 聚 类 的 离 群 点 的 定义 : 如 果 一 个 对 象 不 强 属 于 任何 秘 ， 则 称 该 对 象 是 属于 
聚 类 的 离 群 点 。 

定义 : 假设 数据 集 D 被 有 聚 类 算法 划分 为 k 个 秘 C={C,C,,…,Ci 1 。 对 象 p 的 
离 群 因 了 于 (Outllei-Factor) OF3 (p) 定义 为 p 与 所 有 和 饼 间 距离 的 加 权 平 均值 : 
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| 
OF3(p)= 2 四 


基于 该 定义 ， 进 行 基于 有 聚 类 的 离 群 点 诊断 步骤 过 程 如 下 : 

(D 对 数据 集 DD 采用 聚 类 算法 进行 聚 类 ， 得 到 聚 类 结果 C=1{C,C,,…,C,1。 

@ 计算 数据 集 D 中 所 有 对 象 p 的 离 群 因子 OF3 (p)， 及 其 平均 值 Ave_OF 
和 标准 差 Dev OF， 满足 条 件 OF3 (p) 三 Ave OF+BDev OF (1 三 三 2) 的 对 
象 判定 为 离 群 点 ， 这 里 6 为 设 定 的 阔 值 。 

基于 聚 类 的 离 群 点 挖掘 的 时 间 和 空间 复杂 度 都 是 线性 或 接近 线性 的 ， 因 此 算 
法 具有 高 效 的 性 能 。 但 另 一 方面 ， 产 生 的 离 群 点 集合 它们 的 得 分 可 能 非常 依赖 所 
用 的 簇 的 个 数 和 数据 中 离 群 点 的 存在 性 。 由 于 每 种 聚 类 算法 只 适合 特定 的 数据 类 
型 ， 而 徐 的 质量 对 该 算法 产生 的 离 群 点 的 质量 影响 非常 大 ， 因 此 实际 应 用 中 应 当 
说 慎 地 选择 聚 类 算法 。 

2. 优点 与 缺点 

有 些 聚 类 技术 〈 如 大 均值 ) 的 时 间 和 空间 复杂 度 是 线性 或 接近 线性 的 ， 因 而 
基于 这 种 算法 的 离 群 点 检测 技术 可 能 是 高 度 有 效 的。 此 外 ， 聚 类 过 程 是 对 所 有 样 
本 进行 聚 类 ， 因 此 可 能 同时 发 现 徐 和 离 群 点 。 在 缺点 方面 ， 产 生 的 离 群 点 集 和 它 
们 的 得 分 可 能 非常 依赖 所 用 的 徐 的 个 数 。 


4.4.6 ”小 结 


本 节 介绍 了 目前 离 群 点 诊断 的 几 种 常见 的 方法 ， 一 方面 了 解 了 各 种 算法 的 基 
本 思想 和 原理 ， 同 时 通过 对 其 优 缺 点 、 适 用 范围 进行 分 析 ， 认 识 到 各 种 挖掘 算法 
在 实际 问题 中 应 该 有 选择 地 应 用 。 另 一 方面 ， 通 过 给 出 离 群 点 诊断 的 典型 应 用 ， 
加 深 了 对 离 群 点 挖掘 的 理解 ， 并 且 随 着 人 们 对 各 种 算法 的 不 断 研究 ， 离 群 点 诊断 
技术 在 将 来 一 定 会 得 到 更 广泛 的 应 用 。 


d(p,C.,) (4-91) 





























时 间 序 列 数 据 分 析 与 预测 


4.5.1 时间 序列 概述 


1. 时 间 序 列 的 含义 及 构成 要 素 

(1) 时 间 序 列 的 含义 

时 间 序 列 又 称 动态 数列 是 指 对 茶 一 现象 的 表现 值 按 照 一 定时 间 间 隅 进行 连续 
观测 得 到 的 序列 值 。 比 如 过 去 20 年 每 年 参加 局 考 的 学 生 人 数 、 每 年 的 物价 指数 、 


146 


第 4 章 
数据 分 析 的 基础 理论 


每 个 月 的 石油 平均 价格 、 每 个 季度 的 汽车 销量 等 都 分 别 构成 一 个 时 间 序 列 。 

(2) 时 间 序 列 的 构成 要 系 

时 间 序 列 由 时 间 (z)》 和 对 应 于 各 时 间 上 的 水 平 值 (y〉 两 个 要 系 构 成 。 一 个 
时 间 序 列 通 钊 表示 为 




















et 
ys yy ise yy, 

序列 中 ， 表示 期 初 ; t 表示 期 林 ;，，y, 和 分 别 表示 期 初 水 平和 期 末 水 平 。 在 时 

间 序 列 中 ， 一 般 要 求 每 个 时 间 间 隔 及 长 度 必 须 相 同 ， 水 平 指标 ”从 期 初 到 期 末 必 

须 保 持 相 同 的 内 涵 、 外 延 及 计算 方法 。 

在 对 时 间 序 列 进行 趋势 分 析 与 预测 时 ， 通 种 将 时 间 重新 定义 为 有 规律 的 整 
数值 ， 如 1、2、3…… 或 0、1、2、3…… 或 -8、-6、-4、-2、0、2…… 无 论 采 用 
哪 种 形式 ， 都 不 影响 趋势 分 析 及 预测 结 

2. 时 间 序 列 的 因素 分 解 

时 间 序 列 刻画 的 自然 、 经 济 或 社会 现象 受 多 种 因素 影响 。 通 党 ， 可 以 将 时 间 
序列 的 变化 分 为 四 种 主要 成 分 : 长 期 趋势 成 分 (7T)、 季 节 变 动 成 分 (5)、 人 循环 变 
动 成 分 (C) 和 不 规则 变动 成 分 〈7)。 

(1) 长 期 趋势 

长 期 趋势 是 指 现象 受 某 些 根 本 因素 的 文 配 ， 在 一 个 较 长 时 间 内 表现 出 来 的 持 
续 性 的 变化 趋势 。 从 大 方 和 同上 看 ， 这 种 趋势 可 以 是 持续 同上 ， 也 可 以 是 持续 回 下 
或 平稳 的 ;从 趋势 的 表现 形式 上 看 ， 可 以 是 直线 形式 ， 也 可 以 是 指数 曲线 或 其 他 
曲线 形式 。 

(2) 李 节 变动 

季节 变动 是 指 现象 受 目 然 界 季节 更 奉 的 影响 ， 表 现 出 的 周期 性 波动 规律 。 季 
节 变 动产 生 的 原因 可 能 是 上 自然 季节 影响 ， 也 可 能 是 与 季节 有 关 的 社会 活动 季节 规 
律 《〈 如 节假日 、 每 周 五 天 工作 制 等 ) 的 影响 。 例 如 : 一 天 中 城市 公交 客运 量 的 变 
化 ， 因 早晚 上 下 班 出 现 两 次 高 峰 ， 这 种 规律 每 天 反复 出 现 。 

季节 变动 有 两 个 特点 : 一 是 变化 的 周期 固定 ， 但 长 度 不 超过 一 年 ， 二 是 每 个 
周期 内 的 波动 幅度 基本 相同 。 禹 见 的 时 间 序 列 周期 长 度 有 一 天 、 一 周 、 一 个 月 、 
一 个 季度 、 半 年 和 一 年 。 当 数据 为 年 度数 据 时 ， 则 不 存在 季节 变化 。 

(3) 循环 变动 

循环 变动 是 指 现象 以 若干 年 为 周期 ， 呈 现 出 扩张 和 收缩 的 交 蔡 波动 。 与 季节 
变动 不 同 ， 循 环 变动 的 周期 长 短 不 固定 ， 并 且 每 个 周期 内 波动 的 幅度 也 不 同 。 

(4) 不 规则 变动 

不 规则 变动 又 称 随机 变动 ， 是 指 短 时 间 内 由 于 各 种 侦 然 因素 影响 所 形成 的 不 
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规则 波动 。 

不 规则 变动 往往 无 法 预测 ， 也 可 以 将 其 理解 为 时 间 序 列 中 剔除 长 期 趋势 、 季 
节 变 动 和 循环 变动 后 剩余 的 部 分 ， 可 用 实际 值 与 预测 值 之 间 的 误差 表示 ， 等 同 于 
回归 分 析 模 型 中 的 随机 扰动 项 ， 有 具有 某 种 分 布 特征 。 如 果 不 对 时 间 序 列 进行 区 间 
预测 ， 则 不 用 考虑 不 规则 变动 的 特征 。 

3. 时 间 友 列 的 组 合 模型 

将 时 间 序 列 分 解 成 长 期 趋势 、 季 市 变动 、 循 环 变动 和 不 规则 变动 四 个 因素 后 ， 
可 以 认为 时 间 序 列 了 是 这 四 个 因素 的 函数 ， 即 

= CS,C 7) (4-92 ) 

上 面 的 函数 是 时 间 序 列 的 组 合 模型 ， 通 常 按 长 期 趋势 、 季 节 变 动 、 循 环 变动 
和 不 规则 变动 的 次 序 分 别 进行 分 析 ， 然 后 再 组 合 。 基 于 组 合 形式 的 差异 ， 时 间 序 
列 组 合 模 型 有 不 同 的 形式 ， 其 中 基本 的 模型 形式 有 加 法 模型 和 乘法 模型 两 种 。 

(1) 加 法 模型 

加 法 模型 是 将 时 间 序 列 的 四 个 要 素 采 用 相 加 的 形式 , 以 描述 现象 的 数量 变化 ， 
其 具体 形式 如 下 : 
































TC (4—93) 

(2) 乘法 模型 
乘法 便 型 是 将 时 间 序 列 的 四 个 要 率 采 用 相 乘 的 形式 , 以 描述 现象 的 数量 变化 ， 

其 具体 形式 如 下 : 





Y=T。S ,Cel, (4—94) 
两 种 表述 模型 中 ， 长 期 趋势 均 采 用 绝对 量 的 形式 ， 男 外 三 个 要 系 表 述 形 
式 因 模型 形式 不 同 而 存在 区 列 。 加 法 模型 中 三 者 均 采 用 绝对 量 的 形式 ， 而 乘 
法 模型 中 三 者 均 采 用 相对 指数 形式 。 相 比较 而 言 ， 乘 法 模型 比 加 法 模型 使 用 
更 为 普 过 。 
需要 次 明 的 是 ， 不 是 每 一 个 时 间 序 列 都 包含 了 全 部 四 种 成 分 。 如 有 些 时 间 序 
列 循环 变动 的 因 系 很 弱 ， 此 时 组 合 模型 融 可 以 简化 为 只 包 合 三 种 因 和 际 的 模型 。 


4.5.2 ”时 间 序 列 的 描述 分 析 


1. 时 间 序 列 的 图 表 展 示 

表格 是 准确 记录 时 间 序 列 数据 的 最 单 用 工具 ， 其 特点 是 包含 的 数据 容量 
可 以 依据 趋势 分 析 的 需要 对 表格 形式 进行 设置 ， 但 缺陷 是 不 能 对 时 间 序 列 的 趋势 
进行 直观 展示 。 

通常 ， 为 了 从 视觉 上 获得 时 间 序 列 变化 的 直接 感性 认识 ， 人 们 更 多 地 利用 图 
形 来 摘 述 时 间 序 列 的 变化 过 程 。 可 以 展示 时 间 序 列 变 化 趋势 的 图 形 主 要 有 折线 图 
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和 柱 形 图 ， 两 者 都 是 以 时 间 为 横 轴 ， 其 中 尤其 以 折线 图 应 用 较为 普遍 

2. 时 间 序 列 的 描述 分 析 指 标 

(1) 平均 发 展 水 平 

平均 发 展 水 平 是 时 间 序 列 中 各 期 发 展 水 平 的 平均 值 ， 也 叫 序 时 平均 数 或 动态 
平均 数 ， 它 表明 现象 在 不 同时 间 上 的 一 般 水 平 。 平 均 发 展 水 平 的 计算 依 时 间 序 列 
的 形式 不 同 而 有 所 差别 。 

时 间 序 列 按 所 反映 的 指标 形式 不 同 分 为 绝对 数 时 间 序 列 、 相 对 数 时 间 序 列 和 
平均 数 时 间 序 列 三 种 。 绝 对 数 时 间 序 列 反 映 的 是 某 个 绝对 指标 随时 间 的 变化 ; 
相对 数 时 间 序 列 反 映 的 是 某 个 相对 指标 随时 间 的 变化 ， 平 均 数 时 间 序 列 反 映 的 
是 某 个 平均 指标 随时 间 的 变化 。 三 种 序列 计算 平均 发 展 水 平时 ， 都 以 绝对 数 序 
列 为 基础 。 

绝对 数 时 间 序 列 又 分 为 时 期 序列 和 时 点 序列 。 所 谓 时 期 序列 ， 是 指 时 间 序 列 
中 的 时 间 代 表 一 个 时 期 ， 序 列 中 的 指标 属于 时 期 指标 ; 所谓 时 点 序列 ， 是 指 时 间 
序列 中 的 时 间 代 表 一 个 时 刻 或 时 点 ， 序 列 中 的 指标 属于 时 点 指标 。 时 期 序列 中 各 
期 水 平 可 以 相 加 ， 而 时 点 序列 中 各 期 水 平 不 能 相 加 或 相 加 无 意义 ， 因 而 两 者 计算 
平均 发 展 水 平 的 方法 不 同 。 

(D 时 期 序列 求 平均 。 对 于 时 期 序列 ， 求 平均 发 展 水 平 采用 算术 平均 数 的 计算 
力 
































(4-95 ) 
Nn 
式 中 ，y 代表 平均 发 展 水 平 ，y, 表示 各 期 发 展 水 平 ; Ce i ee 

@ 时 点 序列 求 平均 。 时 点 序列 又 分 为 连续 时 点 和 间断 时 点 序列 。 连续 时 点 序 
列 一 般 是 给 出 连 乡 ce 比如 : 
连续 观测 一 周 上 午 8 时 的 室外 气温 数据 为 : 20.1、21.8、21.4、22.6、24.7、23.8 
和 23.6〔 单 位 为 C)， 则 该 周 上 午 8 时 的 室外 平均 气温 为 : 

(20.1+21.8+21.4+22.6+24.7+23.8+23.6)/7=22.6 (°C) 

间断 时 点 序列 求 平均 ， 采 用 分 段 平 均 并 以 间隔 长 上 度 作为 权 数 进行 加 权 平 均 的 
方法 。n 个 时 点 可 以 将 序列 分 为 n-1 个 时 间 段 ， 每 个 时 间 段 内 分 别 求 简单 算术 平 
均 ， 然 后 以 间隔 长度 为 权 数 对 各 上 段 平 均 数 进行 加 权 再 平均 ， 公 式 为 


yi 十 y+ y3 y 1 十 
Sl 





y= 

















n—l 
_ 7 (4-96) 
J 


<| 


(2) 及 展 速度 与 增长 
发 展 速 度 和 增长 速度 


速度 
征 


从 相对 速度 角度 摘 述 现象 友 展 变化 的 快慢 。 其 中 ， 友 
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展 速 度 是 由 两 个 不 同时 期 的 发 展 水 平 相 比 得 到 的 结果 ， 表 明报 告 期 是 基期 水 平 的 
多 少 倍 或 百 分 之 几 ; 增长 速度 是 报告 期 增加 的 绝对 量 与 基期 水 平 鸭 比 ， 说 明报 告 
比 基 期 减少 或 增加 了 百 分 之 几 ， 计 算 公 式 分 别 为 
发 展 速 度 = x100% (4-97) 
报告 期 水 平一 基期 水 平 
基期 水 平 

如 采 发 展 速度 小 于 100%， 则 表明 报告 期 相对 基期 降低 了 ， 此 时 增长 速度 小 
于 0, 表示 降低 的 幅度 ; 如 果 发 展 速度 大 于 100%, 则 表明 报告 期 相对 基期 增长 了 ， 
此 时 增长 速度 大 于 0， 表 示 增 长 的 幅度 。 

根据 采用 基期 鸭 不 同 ， 发 展 速度 分 为 定 基 发 展 速度 和 环比 友 展 速度 ， 如 采 采 
用 一 个 固定 时 期 作为 基期 ， 则 为 定 基 发 展 速度 ， 如果 采 用 前 一 期 作为 基期 ， 则 为 
环比 友 展 速度 。 两 者 可 表示 如 下 : 

定 基 发 展 速 度 ， 痉 2 2 刀 .… 血 

7 Y 71 
环比 发 展 巡 度 ; 2 和 ww 


增长 速度 = x100% = 发展 速度 一 1 (4-98 ) 








妃 太太 
显然 ， 定 基 发 展 速度 等 于 各 期 环比 发 展 速度 的 连 乘 积 : 
二 两 页 史 沪 
JJ1 ) JJ53 | 
对 应 于 发 展 速度 ， 增 长 速度 也 分 为 定 基 增 长 速度 和 环比 增长 速度 : 
定 基 增 长 速度 ， 呈 一 沁 与 二 22 324 一 2 .和 一 om 


? ? ? ? 


y1 yi 多 4 
环比 增长 速度 ， 呈 一 九 六 一 2 攻 一 六 和 二 Jr 
yi 》2 3 | 
(3) 平均 发 展 速度 与 平均 增长 速度 
平均 发 展 速度 是 表明 各 期 发 展 速度 的 平均 值 ， 反 映 了 现象 在 一 个 较 长 时 间 内 
发 展 变 化 的 平均 速度 平均 增长 速度 则 反映 了 现象 在 一 个 较 长 时 间 内 增长 速度 的 
平均 值 。 平 均 增长 速度 等 于 平均 发 展 速 度 减 去 1。 
平均 发 展 速度 的 计算 有 几何 平均 法 和 高 次 方程 法 两 种 。 两 种 方法 的 侧重 点 不 
同 ， 计 算 绪 果 也 有 和 差异。 几何 平均 法 侧重 于 反映 现象 发 展 变化 的 结果 ， 而 高 次 方 
程 法 侧重 于 反映 现象 发 展 变化 的 过 程 。 几 何平 均 法 求 平 均 友 展 速度 的 公式 如 下 : 


n—l 
= | 二 (4-99) 
4 

















Vi Xv, XV XV = 


Nn— 
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4.5.3 ”长 期 趋势 分 析 


长 期 趋势 分 析 是 时 间 序 列 分 析 中 最 基本 的 内 容 。 分 析 长 期 趋势 的 目的 可 以 概 
括 为 以 下 几 个 方面 : 首先 是 认识 长 期 趋势 本 续 的 定量 规律 性 ， 其 次 是 认识 时 间 序 
列 变化 中 非 趋势 的 其 他 成 分 的 变化 规律 ， 这 里 的 非 趋势 成 分 是 指 时 间 序 列 数据 中 
提出 趋势 成 分 后 剩 下 的 数据 序列 ;最 后 是 可 以 基于 趋势 成 分 变化 的 规律 性 来 预测 
时 间 序 列 未 来 的 变化 。 

时 间 序 列 趋势 分 析 的 方法 比较 多 ， 第 用 的 有 移动 平均 法 、 指 数 平 滑 法 和 趋势 
模型 法 等 。 

1. 移动 平均 法 

移动 平均 法 是 一 种 应 用 广泛 的 简 蛙 趋势 分 析 搁 术 , 它 是 从 序列 的 第 一 项 开始 ， 
按 一 定 的 项 数 计算 友 时 平均 ， 依 次 同 后 移动 得 到 一 个 新 的 移动 平均 序列 。 由 于 移 
动 平 均 序 列 消除 了 侦 然 因 系 的 干扰 ， 因 而 依据 新 的 序列 比较 容易 观察 现象 及 展 变 
化 的 长 期 趋势 。 假 设 按 天 项 移动 平均 ， 则 移动 平均 序列 为 
(WW 

k 

应 用 移动 平均 法 时 ， 确 定 移动 的 项 数 很 关键 ， 通 第 避 人 循 如 下 原则 : 一 是 项 数 
要 适中 ， 项 数 太 多 虽然 较 容易 观察 出 长 期 趋势 ， 但 也 意味 着 损失 更 多 的 信息 ， 项 
数 太 少 则 不 容易 消除 侦 然 因素 的 干扰 ; 二 是 当 数 据 是 以 时 间 周 期 形式 给 出 时 ， 应 
取 周 期 项 数 或 其 整数 倍 移动 , 如 序列 为 在 干 年 的 月 度数 据 , 则 应 取 12 项 移动 平均 ; 
三 是 尽 可 能 取 奇 数 项 移动 ， 因 为 移动 平均 的 结果 应 该 与 原 序 列 的 中 间 项 对 应 ， 妆 
选择 偶数 项 移动 平均 时 ， 需 要 对 移动 平均 的 结 末 再 次 进行 两 项 移动 平均 才能 与 原 
序列 对 齐 。 

移动 平均 法 能 够 很 好 地 消除 季 市 因 系 和 不 规则 因 系 的 有 影响， 不 仅 可 用 于 分 析 
时 间 序 列 的 长 期 趋势 ， 还 经 常用 于 对 序列 进行 修正 。 因 为 移动 平均 序列 项 数 变 少 ， 
移动 平均 法 损失 的 信息 较 多 ， 所 以 该 方法 不 适合 直接 用 于 外 推 预 测 。 

2. 指数 平滑 法 

在 移动 平均 法 中 ， 假 定 过 去 下 期 观测 值 的 权重 相等 ， 并 且 没 有 考虑 早期 的 信 
轧 。 但 在 很 多 情况 下 ， 最 近 的 观测 值 比 早期 观测 值 包含 更 多 对 于 认识 现象 未 来 变 
化 有 用 的 信息 ， 而 指数 平滑 法 则 较 好 地 体现 了 这 一 原则 。 

利 数 平滑 法 是 以 平滑 系数 为 权 数 ， 利 用 本 期 观测 值 和 本 期 预测 值 共 同 构造 下 
一 期 预测 值 的 一 种 加 权 平 均 方 法 。 指 数 平 请 计 有 一 次 指数 平 清 、 二 次 指数 平滑 、 
次 指数 平滑 等 ， 此 处 仅 介 绍 一 次 指数 平滑 ， 其 公式 如 下 : 

T=Qy,+(l—o)T (t=1,2,.…,n) (4—101) 


1 十 ] 























7 = (4-100) 
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式 中 ，y, 为 1 期 的 实际 观测 值 ，T 和 ,分 别 为 1 期 和 t+1 期 的 平滑 预测 值 ，@ 为 
平 消 系数 (0 二 wg 二 1)， 其 取 值 越 大 代表 当前 已 观测 到 的 信息 在 预测 中 的 作用 越 
大 。 在 实际 应 用 中 ， 通 第 可 选取 几 个 w 进 行 预测 ， 最 终 选 取 预 测 误差 最 小 的 w 作 
为 最 后 的 平滑 系数 。 
对 上 述 一 次 指数 平滑 公式 展开 ， 则 有 : 
P=0y + 一 OO 








B=0y,+(1-0D=0y,+Q(- 0)y, +(1—0) 7 
T=0y+(-0D=0y + -0)y,+0( -0) y+(1 -0) 7T 
: (4-102 ) 


DT =wy+d-oOT=ay+ad-ooy i++ad-oom y+ a)T 


由 上 面 的 展开 式 可 以 看 出 ， 早 期 观测 值 的 系数 按照 指数 规律 递减 ， 越 早期 的 
观测 值 系数 越 小 。 当 序列 项 数 较 多 时 ， 初 始 值 对 平滑 预测 值 的 影响 可 以 忽略 ， 因 
此 ， 初 始 平滑 值 可 以 取 初 始 观测 值 五 = y 。 

指数 平滑 方法 能 够 较 好 地 消除 不 规则 因素 的 影响 ， 特 别 适合 于 具有 特殊 惯性 
趋势 形态 的 序列 ， 不 适合 具有 某 种 曲线 趋势 的 序列 。 此 外 ， 该 方法 只 适合 直接 外 
推 预 测 近期 的 趋势 值 ， 不 能 预测 远 期 的 趋势 值 。 

3. 趋势 模型 法 

当时 间 序 列 的 长 期 趋势 呈 近 似 直线 或 某 种 曲线 变化 规律 时 ， 适 合 采用 模型 法 
对 其 长 期 趋势 进行 分 析 预 测 。 采 用 模型 法 进行 趋势 预测 的 优点 是 可 以 对 未 来 较 远 
时 期 的 趋势 值 进行 预测 ， 而 且 还 可 对 模型 进行 各 种 统计 检验 。 

模型 法 是 以 时 间 1 为 自 变 量 ， 以 实际 观测 值 y 为 因 变量 建立 回归 模型 ， 利 用 
回归 分 析 方 法 估计 模型 参数 ， 并 在 此 基础 上 对 序列 的 趋势 进行 预测 的 方法 。 根 据 
长 期 趋势 的 形态 ， 模 型 法 分 为 直线 模型 和 曲线 模型 两 类 。 

选用 何 种 模型 分 析 时 间 序 列 的 长 期 趋势 ， 主 要 基于 以 下 四 点 : 一 是 要 对 现象 
发 展 变化 的 驱动 力量 进行 定性 分 析 ， 不 能 只 注重 数据 和 形式 上 的 趋势 变化 ;二 是 
将 观测 值 绘 成 折线 图 ， 从 图 形 判断 其 趋势 符合 哪 种 形式 ; 三 是 分 别 配合 多 种 模型 ， 
选取 误差 最 小 的 模型 ， 四 是 对 于 变化 复杂 的 时 间 序 列 ， 可 以 考虑 分 段 配合 不 同 的 
模型 。 

(1) 直线 回归 模型 测定 长 期 趋势 

当时 间 序 列 的 长 期 趋势 近似 呈 直 线形 式 时 ， 可 配合 线性 回归 模型 对 时 间 序 列 
的 长 期 趋势 进行 分 析 ， 配 合 的 一 般 线性 方程 为 

$ =P +pt (4-103 ) 
式 中 ，》 为 趋势 值 或 预测 值 ， 记 和 局 为 模型 参数 ， 可 采用 回归 分 析 中 的 最 小 二 乘 
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方法 对 参数 进行 估计。 其 推导 过 程 见 回归 分 析 相 关内 容 ， 结 果 为 


Eo- Ey, 

3 | (OD (4—104) 
SD 

”nD re-Or 


(2) 曲线 回归 模型 测定 长 期 趋势 

对 于 长 期 趋势 呈 曲 线形 式 的 时 间 序 列 ， 应 该 配合 曲线 模型 对 趋势 变化 进行 分 
析 。 时 间 序 列 中 常见 的 曲线 趋势 模型 有 抛物 线 、 指 数 曲 线 、 对 数 曲线 、Logistic 
曲线 等 。 曲 线 模型 的 参数 估计 可 参见 本 书 回归 分 析 中 非 线 性 回归 的 相关 内 容 ， 此 
处 仪 介绍 二 次 抛物 线 模型 分 析 长 期 趋势 。 测 定 长 期 趋势 的 二 次 抛物 线 回 归 方 程 形 
式 如 下 : 














$= +Bt+tpbr (4_105) 
4.5.4 季节 变动 分 析 


季节 变动 分 析 是 分 析 一 个 季节 周期 内 时 间 序 列 在 各 个 时 期 的 强 弱 变 化 规律 。 
需要 注意 的 是 ， 如 果 时 间 序 列 给 出 的 是 年 度数 据 ， 则 每 项 数据 都 包含 了 完整 的 季 
节 周 期 ， 序 列 不 再 包含 季节 变动 因素 ， 不 需要 进行 季节 变动 分 析 。 

如 果 对 时 间 序 列 采 用 乘法 模型 分 析 ， 则 其 中 的 季节 变动 规律 用 季节 指数 来 表 
示 。 季 节 指 数 是 一 个 相对 数 ， 季 节 指 数 大 于 1 表示 该 季 为 旺季 ， 小 于 1 表示 淡季 ， 
接近 1 则 表示 平 季 。 各 个 季节 指数 相 加 应 等 于 一 个 周期 中 的 季节 指数 个 数 。 如 果 
对 时 间 序 列 采 用 加 法 模型 分 析 ， 则 其 中 的 季节 变动 用 季节 差 表 示 ， 季 节 差 属于 绝 
对 数 ， 季 节 差 大 于 0 表示 该 季 为 旺季 ， 小 于 0 表示 淡季 ， 接 近 0 则 表示 平 季 。 各 
个 季节 差 相 加 应 等 于 0。 

实际 分 析 季 节 变 动 时 ,以 季节 指数 使 用 较 多 。 如 果 各 期 的 季节 指数 比较 接近 ， 
则 说 明 季 节 变 动 不 明 显 或 不 存在 季节 变动 ， 否则 ， 即 为 存在 季节 变动 。 

分 析 季 节 变 动 一 般 需 要 三 个 以 上 季节 周期 的 数据 。 按 照 是 否 消除 长 期 趋势 的 
影响 ， 季 节 变 动 分 析 方 法 分 为 同期 简单 平均 法 和 趋势 剔除 法 两 种 。 

1. 同期 简单 平均 法 

同期 简单 平均 法 是 对 各 个 同期 水 平分 别 计算 平均 数 ， 然 后 与 全 部 数据 的 总 平 
均 数 相 比 , 计算 季节 指数 。 比 如 ,根据 各 年 度 的 月 度数 据 分 析 季 节 变 动 ， 则 有 1 一 
12 月 12 个 季节 指数 ， 根据 各 年 度 的 季度 数据 分 析 季 节 变 动 ， 则 有 1 一 4 季 4 个 季 
节 指 数 ， 根 据 若 干 周 每 天 的 数据 分 析 季 节 变 动 ， 则 有 星期 一 至 星期 天 7 个 季节 指 


数 ; 等 等 。 
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同期 简单 平均 法 消除 了 不 规则 变动 的 影响 ， 是 分 析 季 节 变 动 最 基本 的 方法 。 

2. 趋势 剔除 法 

简单 同期 平均 没有 考虑 长 期 趋势 对 季节 变动 的 影响 ， 只 适用 于 长 期 趋势 不 明 
显 的 序列 。 但 社会 经 济 现象 一 般 都 有 明显 的 上 升 或 下 降 的 长 期 趋势 。 如 果 序 列 有 
明显 上 升 的 长 期 趋势 ， 则 会 影响 四 个 季度 的 季节 指数 依次 上 升 ， 如 果 序 列 有 明显 
下 降 的 长 期 趋势 ， 则 会 影响 四 个 季度 的 季节 指数 依次 下 降 。 因 此 ， 只 有 消除 长 期 
趋势 ， 才 能 得 到 准确 的 季节 变动 规律 。 

剔除 长 期 趋势 的 具体 步骤 是 : 

Q) 首先 对 原 序 列 〈J) 按 季 节 周 期 进行 移动 平均 ， 得 到 的 移动 平均 序列 (M) 
消除 了 季节 因素 和 不 规则 因素 的 影响 ， 只 包含 长 期 趋势 和 循环 变动 因素 。 

@) 然后 用 原 序列 〈7) 除 以 移动 平均 序列 (M) 得 到 一 个 新 序列 “FF)， 此 序 
列 只 包含 季节 变动 和 不 规则 变动 。 

(8) 最 后 对 包含 季节 变动 和 不 规则 变动 的 序列 (F) 采用 简单 同期 平均 法 可 计 
算出 季节 指数 。 

上 述 过 程 可 用 图 4-19 表示 。 


序列 : 了 移动 平均 序列 : M YM 序列 : FF 
包含 因素 : 7SCI 包含 因素 : TC 包含 因素 : SI 
简单 同期 平均 
季节 指数 。 上 一 一 


图 4-19 ”趋势 剔除 法 测定 季节 指数 流程 图 





























4.5.5 ”循环 变动 分 析 


与 长 期 趋势 测定 和 季节 变动 测定 相 比 ， 循 环 变动 的 周期 不 严格 固定 ， 并 且 每 
个 周期 波动 的 幅度 也 不 完全 相同 ， 因 此 对 其 进行 准确 测定 更 为 困难 。 

在 乘法 模型 中 ， 循 环 变动 用 循环 指数 表示 。 循 环 变动 分 析 是 测定 循环 变动 的 
周期 长 度 , 并 且 计 算出 一 个 周期 内 各 期 的 循环 指数 。 如 来 各 期 循环 指数 较为 接近 ， 
则 认为 不 存在 循环 变动 。 

对 循环 变动 进行 分 析 的 步骤 是 : 首先 测定 出 序列 的 长 期 趋势 7T);， 然 后 对 原 
序列 及 用 移动 平均 得 到 包含 长 期 趋势 和 循环 变动 的 序列 (CM=TC)， 用 序列 M 的 值 
除 以 长 期 趋势 值 ， 得 到 循环 指数 C， 将 循环 指数 C 的 值 描绘 成 折线 图 ， 观 罕 其 周 
期 ， 最 后 计算 周期 内 各 期 的 循环 指数 。 
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4.5.6 ”时 间 序 列 的 预测 


对 时 间 序 列 进行 预测 ， 一 般 假 定时 间 序 列 在 未 来 会 按 已 知 的 规律 进行 变化 ， 
为 此 可 以 找 出 各 个 构成 要素 的 变化 规律 ， 利 用 组 合 模型 进行 预测 。 由 于 影 啊 现象 
变化 因素 的 复杂 性 与 多 变性 ， 使 得 现象 未 来 的 变化 未 必 芝 循 原 有 的 规律 ， 因 而 对 
时 则 序列 的 未 来 值 进行 准确 预测 变 得 较为 困难 。 

1. 时 间 友 列 的 预测 误差 

对 一 个 时 间 序 列 进 行 预测 可 供 选 择 的 方法 较 多 ， 不 同 预 测 方法 的 优 劣 如 何 比 
较 ? 预测 的 效果 如 何 ? 最 简单 的 方法 是 比较 预测 值 与 实际 值 ， 通 过 两 者 震 值 〈 误 
甜 ) 的 大 小 来 比较 不 同 预测 方法 的 优 劣 以 及 预测 效果 。 

预测 误 到 可 以 看 作 是 不 规则 变动 因 系 的 影响 , 等 于 实际 观测 值 与 预测 值 的 差 ， 
用 e 表示 。 第 用 的 预测 误 关 测量 指标 有 绝对 平均 误 兰 〈Mean Absolute Deviation ， 
MAD )、 均 方 误 兰 (Mean Square Error, MSE)、\ 平 均 绝 对 误 闫 百分比 (Mean Absolute 
Percentage Error，MAPE) 等 ， 各 种 误差 的 计算 公式 如 下 : 


















































| 人 
Nn Nn 
9 TY 人 A2 
人 
Nn Nn 
| /0 1 ee (4—108) 


Nn 

式 中 ，n 为 预测 次 数 ，y 为 第 i 期 的 实际 观测 值 ，Y” 为 第 i 期 的 预测 值 。 平 均 绝 
对 误差 百分比 可 用 于 比较 不 同时 间 序 列 的 预测 效果 ， 绝 对 平均 误差 和 均 方 误 磊 则 
用 于 比较 同一 序列 不 同 预测 方法 的 预测 效果 。 

需要 注意 的 是 ， 预 测 误差 只 是 衡量 预测 效果 的 一 种 参考 ， 因 为 平均 误差 是 过 
去 所 有 时 期 预测 误差 的 平均 值 。 与 之 相 比 ， 最 近 的 误差 显然 更 有 参考 价值 ， 平 均 
误 莽 小 并 不 代表 最 近 的 误差 也 小 ， 因 而 需要 将 两 者 结合 起 来 考量 。 

2. 时 间 友 列 的 预测 方法 

时 间 序 列 的 预测 方法 有 很 多 种 ， 既 有 移动 平均 法 、 简 单 指数 平滑 法 、 趋 势 模 
型 法 等 针对 包含 长 期 趋势 和 不 规则 因素 的 时 间 序 列 预 测 方法 ， 也 有 基于 要 素 组 合 
的 分 解 预 测 、Winters 指数 平滑 预测 等 针对 复合 型 时 间 序 列 的 预测 方法 ， 还 有 将 时 
间 序 列 看 作 具 有 内 生 解 释 能 力 的 ARIMA 预测 方法 。 每 种 方法 的 适用 对 象 都 存在 
和 差异， 预测 方法 的 选择 需要 考虑 时 间 序 列 上 自身 的 特点 、 所 包含 的 构成 要 素 、 历 史 
数据 的 多 少 、 预 测 期 的 长 短 等 因素 。 下 面 主 要 介绍 分 解 预 测 和 Winters 指数 平滑 
































155 


新 能 源 汽车 
大 数据 分 析 与 应 用 技术 


预测 两 种 方法 。 

(1) 基于 要 系 组 合 模 型 的 分 解 预 测 

基于 要 系 组 合 模 型 的 分 解 预 测 方 法 适合 于 包含 长 期 趋势 、 季 节 变 动 和 循环 变 
动 要 系 及 不 规则 变动 的 复合 型 时 间 序 列 ， 要 求 至 少 有 4 个 年 度 的 分 季 或 分 月 的 数 
据 。 该 方法 可 以 对 时 间 序 列 进行 短期 、 中 期 和 长 期 预测 。 该 方法 的 特点 是 以 历史 
数据 所 包含 的 规律 对 未 来 进行 预测 ， 各 个 历史 数据 均等 同 对 每 ， 不 考虑 时 间 友 列 
未 来 规律 可 能 出 现 的 变化 。 该 方法 对 于 规律 性 较 强 并 且 规 律 变 化 不 明显 的 序列 能 
够 做 出 有 效 预 测 。 

基于 要 素 组 合 模型 分 解 预测 方法 的 基本 原理 是 ， 首 移 根 据 历 史 数 据 分 离 出 
长 期 趋势 、 季 市 变动 和 循环 变动 等 因素 ， 然 后 构建 时 间 序 列 的 组 合 模 型 并 利用 
模型 对 时 间 友 列 进行 预测 。 假 定时 间 序 列 未 来 是 控 已 经 观测 到 的 长 期 趋势 、 季 
节 变 动 和 循环 变动 规律 发 展 变化 ， 根 据 时 间 序 列 的 乘法 模型 ， 时 间 序 列 的 预测 
值 克 为 
































上 CC (4—109) 

通常 情况 下 ， 对 时 间 序 列 的 预测 属于 均值 预测 。 如 果 不 考 虑 区 间 预 测 ， 则 预 
测 模 型 中 的 不 规则 变动 可 以 不 予 考虑 ， 因 此 组 合 模 型 可 简化 为 

二 CC (4—110) 

如 果 时 间 序 列 不 存在 季 市 变动 和 循环 变动 ， 则 预测 值 每 于 长 期 趋势 值 ， 对 于 
年 值 数据 序列 ， 不 存在 季 市 变动 ， 了 预测 值 等 于 长 期 趋势 值 与 循环 指数 的 乘积 。 

(2) Winters 指数 平滑 预测 

Winters 指数 平滑 预测 模型 具体 形式 较 多 ， 本 书 只 介绍 Holt 一 Winters 三 参数 
指数 平滑 模型 预测 方法 。 从 模型 形式 上 分 ，WintersH 参数 指数 平 请 预测 模型 同样 
可 分 为 乘法 和 加 法 模型 两 种 ， 适 用 于 存在 线性 趋势 和 季度 变动 两 种 要 素 的 复合 序 
列 ， 要 求 至 少 有 4 个 年 度 的 分 季 或 分 月 数据 。 

Winters 三 参数 指数 平滑 法 可 以 适用 于 具有 线性 趋势 和 季 和 特征 的 时 间 序 列 
数据 。 假 定 一 个 从 0 时 期 开始 的 时 间 序 列 {z} 具有 周期 长 度 为 工 的 季 市 变化 。 
用 {5,} 表示 t 时 期 的 平 消 值 ，{b} 表 示 车 加 在 季 市 变化 上 的 趋势 值 ， 而 红 } 是 上 时 
期 的 季节 修正 因子 ， 则 对 (ttm) 时 期 (mm >0) 的 预测 记 为 ,,，，s,、b, 和 工序 列 
分 别 取 不 同 平 清 因子 平滑 得 到 ， 预 测 值 已 ， 由 以 下 公 陈 确定 

F ,=(s +mb)L,,,, (4—111) 
上 式 为 乘法 模型 。 式 中 s +mb, 是 趋势 因素 ，7 ，， 是 季 广 指数 。 取 为 水 平 值 平 
清 因 了 于 (0<w< 1)，10 为 趋势 平滑 因 了 于 〈0<6<1)，yY7 为 季节 平滑 因子 
(0 二 yy 二 1)， 则 各 序列 确定 公式 如 下 : 
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X, 
s,=0 





二 (一 CQ)(s +b.) 
1—L 


b, =p(s, -Bt(l= pb (4-112) 


人 
1/ 六 et (1 太太 二 


上 述 三 个 序列 的 初始 值 如 下 ， 其 中 初始 季节 指数 有 工 个 : 


So 二 Xo 


L 四 
3 (4-113) 


4.5.7 ”小 结 


时 间 序 列 分 析 是 一 种 根据 动态 数据 揭示 系统 动态 结构 和 规律 的 统计 方法 。 该 
方法 基于 随机 过 程 理论 和 数理 统计 学 方法 ， 研 究 随机 数据 序列 所 遵从 的 统计 规律 
以 用 于 解决 实际 问题 。 时 间 序 列 建 模 基 本 步骤 是 : 

(D 用 观测 、 调 查 、 统 计 、 抽 样 等 方法 取得 被 观测 系统 时 间 序 列 动态 数据 。 

根据 动态 数据 作 相 天 图 ， 进 行 相关 分 析 ， 求 自 相 天 函数 。 

(3) 辨识 合适 的 随机 模型 ， 进行 曲线 拟 合 , 即 用 通用 随机 模型 去 拟 合 时 间 序 列 
的 观测 数据 。 

本 节 介 绍 了 时 间 序 列 的 相关 概念 和 方法 ， 重 点 介绍 了 长 期 趋势 分 机 、 季 贡 变 
动 分 机 和 循环 变动 分 析 以 及 基于 时 间 序 列 的 预测 方法 和 模型 。 
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新 能 源 汽车 的 运行 大 数据 统计 
分 析 与 应 用 实例 








随 独 新 能 源 汽车 产业 的 不 断 及 展 ， 新 能 源 汽车 运行 数据 和 运营 数据 呈现 爆炸 
式 增长 ， 如 何 通 过 大 数据 分 析 挖 掘 技术 友 现 车 辆 运行 数据 中 潜在 的 有 价值 信息 是 
政府 相关 部 门 、 新 能 源 汽车 生产 销售 企业 以 及 个 人 消费 者 所 关心 和 关注 的 问题 。 
本 章 主要 分 为 新 能 源 汽 车 大 数据 应 用 概述 、 撤 术 分 析 与 应 用 、 使 用 行为 分 析 与 应 
用 、 宏 观 经 济 分 析 与 应 用 四 个 部 分 ， 从 技术 、 应 用 和 宏观 经 济 三 个 维度 分 别 介绍 
车 辆 数据 挖掘 的 具体 方法 与 相关 结论 。 




















新 能 源 汽 车 大 数据 的 应 用 概述 


5.1.1 大 数据 标准 化 


数据 的 标准 化 是 公开 共享 、 公 平 应 用 、 公 正 评估 的 前 提 。 通 过 标准 化 、 规 范 
化 数据 表示 、 元 数据 类 型 和 操作 方式 ， 为 数据 的 统一 存储 提供 基础 。 通 过 制定 大 
数据 分 析 技 术 要 求 、 分 析 过 程 模型 、 可 视 化 工具 要 求 等 标准 ， 解 决 多 类 型 数据 的 
可 靠 存 储 问题 ， 提 高 大 数据 处 理 产 品 的 质量 。 

目前 ， 新 能 源 车 辆 大 数据 平台 实时 信息 上 报 数据 包含 驱动 电机 数据 (10 项 )、 
整 车 数据 (11 项 )、 极 值 数据 (12 项 )、 报 警 数据 〈10 项 )、 和 车辆 位 置 数据 (3 项 )、 
燃料 电池 数据 (12 项 )、 发 动机 数据 (3 项 ) 共 61 项 。 基 于 车 联网 数据 标准 ， 建 
芯 能 耗 文 撑 数据 、 轨 驶 行为 文 撑 数据 、 售 后 服务 文 撑 数 据 等 数据 网 络 ， 是 进行 安 
全 监管 、 质 量 评估 、 运 行 统计 、 政 策 研 究 、 数 据 融 合 等 研究 的 前 提 。 

未 来 车 辆 大 数据 最 终 要 实现 人 、 车 和 环境 的 深入 融合 ， 故 未 来 大 数据 标准 将 
基于 “人 、 车 、 环 境 ” 三 要 素 进 行 建立 〈 图 $-1 )。 

通过 对 人 的 学 历 、 年 龄 、 职 业 等 信息 进行 标准 化 处 理 ， 可 进行 人 的 购买 能 力 
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分 析 ; 基于 人 流量 统计 、 出 行 行 为 统计 ， 可 进行 人 流 热 点 分 析 和 第 去 地 点 分 析 ; 
基于 和 车辆 采集 数据 标准 ， 采 集 和 车辆 的 位 置信 息 、 电 闻 人 信息、 能 耗 信 息 等 数据 ， 可 
对 车 辆 行驶 状态 、 安 全 状态 、 能 耗 情况 等 进行 评估 ;建立 环境 标准 化 评估 方法 ， 
考 夸 地 方 政府 法 规 ， 依 据 周 边 环境 的 拥 增 信息 、 路 政情 况 、 充 电 桩 布局 等 信息 ， 
可 实现 对 环境 的 准确 评估 。 








驾驶 行为 电池 信息 位 置信 息 人 流量 分 析 购买 能 力 分 析 
关键 零 部 件 和 行为 分 析 
能 耗 信息 2 车 | | 
环境 信息 人 
环境 II 
地 方 政府 法 规 A 人 
充电 桩 布局 周边 的 爱好 点 € 




















5-1 大 数据 标准 化 趋势 


5.1.2 大 数据 应 用 领域 


电动 车 辆 大 数据 的 应 用 领域 主要 划分 为 政府 、 丙 业 、 用 户 三 个 层次 。 针 对 不 
同 层次 领域 应 用 对 象 、 应 用 要 求 部 有 所 不 同 。 

政府 需要 对 和 车辆 安全 、 交 通 规 划 、 公 共 安 全 、 产 业 政 策 、 环 境 保护 方面 进行 
管理 。 为 推动 大 数据 在 政府 管理 中 的 运用 ， 结 合 实际 与 需要 ， 提 出 以 下 几 点 要 求 : 

(D 加 强 和 完善 大 数据 基础 设施 建设 及 服务 功能 , 扩大 大 数据 专业 人 才 及 技术 
引进 广度 。 广 泛 应 用 物 联网 、 云 计算 、 数 据 实 时 分 析 产 品 、 分 布 式 数据 处 理 系统 
等 新 一 代 信息 技术 ， 促 进 政务 及 展 与 信息 化 深度 融合 。 

G@ 加 快 搭建 统一 平台 ， 统 等 大 数据 研 肥 应 用 。 从 组 织 保障 、 数 据 采 集 、 数 据 
共 圣 、 数 据 应 用 等 方面 入 手 ， 建 立 部 门 联络 、 分 级 管理 、 信 息 你 密 、 授 权 使 用 、 
考核 激励 等 一 系列 机 制 ， 加 强 平 台 建 设 及 日 冲 管 理 。 

(3) 继续 推进 大 部 制 改 车 ,促进 统一 类 型 数据 在 业务 部 门 内 整合 。 完 善 大 数据 
发 展 政策 , 围 经 大 数据 开 及 及 应 用 形成 展 好 的 治理 体系 。 建 立 政务 数据 管理 条 例 ， 
对 数据 的 所 有 权 、 使 用 权 、 知 情 权 等 一 系列 问题 给 出 明确 的 制度 界定 。 局 度 重 视 
网 络 安全 ， 出 台 网 络 空间 治理 相关 的 法 律 法 规 ， 针 对 大 数据 应 用 过 程 中 涉及 的 信 
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奶 安 全 问题 采取 切实 有 效 的 你 护 措施 。 

(4) 加 速 数 据 挖掘 及 运用 , 提高 大 数据 在 政府 决策 中 的 作用 。 有 效 挖掘 、 存 储 、 
处 理 、 分 析 数 据 ， 并 创新 性 地 利用 大 数据 辅助 决策 ， 提 升 公共 服务 水 平 。 

商业 领域 主要 包括 公共 服务 、 商 业 服 务 、 汽车 金融 和 汽车 企业 四 个 方面 (图 5-2)。 

















应 用 领域 
政府 商业 

















产 | | 车 | | 交 | | 公 | | 环 公 | | 商 | | 汽 | | 汽 交 
家 | | 业 | | 辆 | | 通 | | 共 | | 境 共 | | 业 车 通 
安 | | 政 | | 安 | | 管 | | 安 | | 保 服 | | 服 企 服 
全 | | 策 | 全 | | 理 | | 全 | | 护 务 | | 务 业 





图 5-2 大 数据 的 应 用 领域 


在 公共 服务 方面 , 通过 挖掘 大 数据 中 的 潜在 信息 ,可 提供 更 优质 的 公共 服务 ， 
例如 建设 更 全 面 高 效 的 充 换 电 基础 设施 ， 提 供 充 分 的 保养 维修 服务 等。 而 对 于 商 
业 服务 ， 大 数据 在 市 场 中 的 应 用 能 够 实现 更 加 精准 的 用 户 细 分 ， 更 加 高 效 的 工作 
效率 ， 更 加 个 性 、 优 质 的 服务 体验 。 在 汽车 金融 方面 ， 可 以 让 汽车 保险 定价 更 合 
理 、 让 理赔 定 损 更 简单 等 。 人 至 于 汽车 企业 ， 合 理 运用 车 辆 大 数据 ， 可 实现 设计 优 
化 、 车 间 通 信 、 无 人 驾驶 等 功能 。 除 此 之 外 ， 对 维修 企业 与 汽配 电 丙 而 言 ， 大 数 
扰 的 应 用 ， 可 以 让 配件 碍 找 更 精确 快捷 。 

用 户 领 域 主要 包括 智能 控制 、 交 通 服务 、 车 辆 信息 等 方面 ， 可 以 将 这 些 方面 的 内 
容 集成 在 APP 终 疹 上 。 通 过 APP 终 站 的 下 载 与 应 用 ， 可 以 给 用 户 提 供 车 辆 信息 ， 提 
供 交 通 服务 ， 对 车 辆 进行 智能 控制 ， 帮 助 用 户 更 好 地 驾驶 车 辆 ， 提 升 芍 驶 体验 。 























新 能 源 汽 车 技术 分 析 汪 应 用 


5.2.1 动力 电池 系统 故障 分 析 


1. 应 用 背 录 
随 着 新 能 源 汽 车 产业 的 发 展 ， 纯 电动 汽车 的 安全 问题 和 质量 问题 已 经 成 为 人 
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们 关注 的 热点 。 动 力 电池 系统 作为 纯 电 动 汽 车 中 重要 的 能 源 存 储 装 置 ， 在 其 使 用 
过 程 中 发 挥 着 章 要 的 作用 。 近 年 来 频 友 的 动力 电池 系统 危险 故障 加 剧 了 纯 电 动 汽 
车 消费 者 的 担忧 ， 因 此 加 快 动力 电池 系统 的 故障 诊断 和 安全 管理 势 在 必 行 。 对 动 
力 电池 系统 进行 故障 诊断 ， 明 确 故 障 类 型 ， 定 位 故障 位 置 ， 避 免 故 障 发 生 ， 对 电 
动 汽车 的 稳定 性 提升 有 十 分 积极 的 作用 。 

本 宁 例 通过 纯 电 动 汽 车 运行 大 数据 的 统计 分 析 ， 研 究 动 力 电池 电压 的 变化 规 
律 和 噶 沼 波动 ， 并 据 此 判定 故障 概 宗 ， 最 后 与 实 车 对 应 ， 将 数据 统计 故障 诊断 结 
论 转 换 成 实际 车 辆 故障 诊断 结论 。 

2. 处 理 流程 

3 多 层次 数据 中 选 鸭 主要 作用 是 运用 高 斯 分 布 的 概率 特性 , 对 无 故障 数据 进 
行 集中 俑 选 。 多 层次 数据 俑 选 策 略 运 用 3c 准则 进行 径 选 。 图 $-3 所 示 为 高 斯 分 布 
中 心 值 附近 不 同 分 布 区 间 内 的 概率 密度 ， 从 图 中 可 以 看 出 在 3o 之 外 的 概 京 之 和 
只 有 不 到 0.3%， 因 此 事件 发 生 在 3c 范围 之 外 的 概率 非常 小 。 在 多 层次 科 选 算 
法 中 ,给 定 一 组 中 心 值 应 该 一 致 的 数据 ， 认 为 超过 3c 范围 的 数据 存在 故障 。 在 
建立 高 斯 分 布 时 ， 高 斯 分 布 的 中 心 位 置 应 该 减少 这 些 故障 数据 的 影响 。 因 此 在 多 
层次 饶 选 算法 中 , 每 一 次 烯 选 都 会 将 数据 组 中 超过 3c 范围 的 数据 剔 除 挥 ， 并 重新 
计算 中 心 值 。 





























34.1% | 34.1% 








图 5-3 不 同 o 区域 概率 密度 分 布 


下 面 以 北京 某 车 型 样 车 在 2016 年 某 日 行驶 的 行 同 量 ( 物 理 意义 为 电池 单 体 端 
电压 ) 为 例 ， 对 多 层次 3o 沛 选 过 程 进行 解释 计算 。 电 池 组 中 有 91 个 单 体 ， 电 压 
形成 行 同 量 D1。 

D1= [4.02 4.02 4.02 4.02 4.02 4.09 4 4.02 4.02 4 4.02 4.02 4.02 4.02 4.02 4.02 
4.02 4.02 4 4.02 4.02 4 4.02 4.02 4.02 4.02 4.02 4.02 4 4 4.02 4.02 4.02 4.02 4.02 4.02 
4.02 4 4.02 4.02 4.1 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4 4.02 4.02 4.02 4.02 4.02 4.02 
4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4 4.02 4.02 4.02 4.02 4.02 4.02 
4.02 4.02 4.02 4 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02 4.02] 

从 图 5-4 可 以 看 到 ,在 第 6 位置 和 第 41 位 置 电压 值 明 显 超出 电池 组 电压 平均 
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水 平 ， 计 算 这 组 端 电压 的 均值 时 不 希望 被 这 两 个 位 置 影 响 。 因 此 在 计算 均值 时 ， 
利用 多 层次 和 饶 选 算 法 将 这 两 个 值 剔 除 出 去 。 

















4.1 
4.08 上 | 
4.06 上 一 
> 
. 
- 4.04 上 二 
4.02 _ 
4 | | | | 
0 20 40 60 80 100 
电池 单 体 序号 
图 5-4 D1 端 电压 
从 图 5-5 中 可 以 看 到 这 组 电池 数据 的 中 心 在 4.0195 附近 ， 标 准 兰 为 0.0130。 
mean (D1) =4.0195 (S$S—1) 
std (D1) =0.0130 (5—2) 


高 斯 分 布 如 图 5-5 所 示 。 





40 上 


30 上 














3.8 3.83 3.9 3.95 4 4.05 4.1 4.15 4.2 
电压 /V 


图 5-5 D1 行 同 量 高 斯 分 布 
根据 多 层次 数据 筛选 算法 ， 认 为 故障 值 在 (4L-3co,w+3o) 区 间 之 外 ， 计 算 上 
下 限 为 





HU+3o:4.019S+3x0.0130= 4.0585 (5—3) 
LL—3o0:4.019S—3x0.0130=3.9805 ($5—4) 
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30 范围 为 
(3.980 5,，4.058 5 ) ($5—5) 
第 4 位 置 和 第 41 位 置 偏 离 值 为 
D1 (6) =4.09 ($5—6) 
D1 (41) =4.1 ($5—7) 


经 过 30 第 2 层 俑 选 , 发 现 第 6 个 数据 和 第 41 个 数据 超出 3c 范围 ,和 俑 除 这 两 
个 数据 ， 再 用 男 一 个 和 矩阵 D2 记录 其 他 数据 ， 即 





D2 (41) = [|] (5—8) 
D2 (6) = [] (5—9) 
重新 计算 均值 和 标准 亏 : 
mean (D2) =4.017 8 ($5—10) 
std (D2) =0.0064 (5S—11) 


用 算 选 过 的 数据 D2 重新 建立 高 斯 分 布 ， 从 图 5-6 中 可 以 明显 看 到 高 斯 分 布 
问 中 心 值 收 紧 。 从 标准 差 可 以 看 出 去 掉 个 别 超出 3c 范围 的 数据 后 , 标准 差 下 降 到 
原来 的 49.2%。 

















3.8 3.85 3.9 3.95 4 4.05 4.1 4.13 4.2 
电压 /V 


图 5-6 D2 高 斯 分 布 


从 图 $-7 可 以 看 出 , 经 过 一 次 3c 往 选 计算 后 , 第 二 层 的 数据 与 第 一 层 的 数据 
中 心 值 存在 一 个 差 值 (图 5-5 中 绿色 直线 在 x 方向 投影 ), 这 个 差 值 就 代表 了 一 
次 科 选 后 对 原来 中 心 值 进行 的 调整 。 从 原始 D1 数据 可 以 看 到 ， 大 部 分 数据 都 
洲 在 4.00 一 4.02， 因 此 均值 约 为 4.01; 但 因为 第 6 和 第 41 数据 异常 偏 大 ， 叶 至 
均值 偏离 到 4.019， 所 以 去 掉 个 别 超出 3c 范围 的 数据 后 得 到 的 中 心 值 将 更 能 
映 该 无 故障 系统 整体 的 中 心 位 置 。 这样 做 的 目的 是 为 了 在 下 一 步 的 研究 中 更 能 
反映 无 故障 系统 整体 的 高 斯 分 布 ， 来 定位 故障 或 异常 在 高 斯 分 布 中 的 位 置 及 置 
‘2 
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电压 /V 
5-7 ”两 次 高 斯 分 布 距离 





多 层次 30 饶 选 算法 的 优点 : 一 是 这 种 方法 一 次 虽 选 能 同时 去 除 所 有 超过 3c 
置信 区 间 的 数据 ， 处 理 效率 高 ;二 是 这 种 方法 能 按照 置信 区 间 来 调整 浆 值 。 为 后 
期 车 辆 数目 、 车 辆 种 类 、 不 同时 间 等 多 维度 的 大 数据 处 理 ， 提 供 了 高 效 的 算法 。 
在 后 期 也 大 大 地 节省 了 运算 的 时 间 ， 提 高 了 运算 的 效率 。 

为 了 后 期 对 电池 组 组 内 电池 单 体 之 间 故 障 规律 进行 预 处 理 ， 该 算法 用 故障 算 
阵 R 将 超过 3c 的 数据 位 置 保 存 。 在 实际 中 经 过 计算 ， 发 现 一 次 科 选 后 ， 第 二 次 
的 中 心 值 就 足够 精确 ， 因 此 将 程序 直接 编写 为 两 次 科 选 ， 提 升 了 计算 速度 ， 简 化 
了 程序 。 电 池 系 统 单 体 端 电压 故 隐 诊断 模型 是 根据 得 到 的 端 电 压 数据 形式 并 结合 
统计 学 算法 进行 建立 的 ， 其 算法 流程 如 网 5-8 所 示 。 

其 中 过 程 1 到 2 为 故障 判定 核心 处 理 算法 ， 其 流程 如 下 : 

Q 根据 某 时 刻 采 集 到 的 电动 汽车 电池 单 体 实时 端 电压 数据 , 建立 端 电压 数据 
矩阵 : 





























U, =(0@ 1UO) (5-12) 
进行 局 斯 分 布 建立 计算 : 

Ur eol) (5-13 ) 
GO 去 除 3c 范围 之 外 的 端 电压 数据 ， 并 建立 新 的 数据 矩阵 : 

UV =(U0,...,U0) (5_14) 
再 次 进行 高 斯 分 布 建 并 计算 : 

Epo Moo, (5—15) 
(3) 重复 步 又 @， 对 数据 进行 m 次 过 滤 得 到 最 终 理想 分 布 : 

UW™ ~ (1,,,0,,) (5—16) 
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了 


计算 平均 值 放 和 标准 差 a 


从 电动 车 辆 监控 服务 平台 中 
导入 数据 












建立 高 斯 分 布 XNi(41,01) 





对 原始 数据 怎 阵 进 行 筛 选 ， 
构建 数据 窍 阵 D 


清洗 数据 算 阵 忆 


计算 从 阵 D 的 大 小 ， 并 返回 m 行 ，n 列 







计算 301 范 围 外 的 数据 ， 并 记录 在 
故障 和 祭 阵 R1 的 位 置 (i, 7 


去 除 故 障 逢 阵 R1 中 的 故障 数据 ， 
并 重新 计算 平均 值 /2 和 标准 差 om 











在 矩阵 R, 中 记录 30， 
范围 外 的 位 置 





并 








是 否 循环 m 行 








转 去 下 一 行 
j=i+1 


:< > 


Dy 
否 




















是 否 有 高 故障 频率 单元 ? 


输出 12, 02, Rs, 并 建 并 
高 斯 分 布 Y~N2(1, oz) 











? 


分 析 并 得 出 故障 的 0 对 抢 阵 尼 的 行 求 和 ， 得 到 矩阵 
统计 分 布 输出 电池 组 中 的 故障 位 置 $s 中 的 每 个 单元 的 故障 频率 














图 5-8 ”电池 系统 单 体 端 电压 故障 诊断 模型 
由 设 定 参考 故障 诊断 范围 (4, +B，o,,)， 对 得 到 的 最 终 分 布 进行 比较 判断 ， 
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其 中 如是 可 调节 闪 值 。 在 故障 诊断 矩阵 R 中 ， 把 故障 诊断 范围 外 的 数据 设 为 1， 
故障 诊断 范围 之 内 的 数据 设 为 0， 建 立 t 时 刻 的 故障 诊断 矩阵 R 为 

R=(R,,…,R,,) (5—17) 
在 这 里 ，R ,=0 或 1。 

(5) 选 定 一 个 时 间 段 (t~~t)， 进 行 从 步 台山 一 步 又 的 人 循环 计算 ， 得 到 这 个 
时 间 段 内 的 故障 矩阵 : 

R=(R,,R,) (5—18) 

3. 处 理 结 果 

(1) 两 种 类 型 的 故障 定义 

对 大 量 同 种 车 型 车 辆 进行 故障 诊断 , 通过 对 这 些 车 辆 的 大 数据 结果 整合 分 析 ， 
在 这 里 定义 两 种 故障 : 

(GD 对 于 小 部 分 车 辆 ， 某 个 不 确定 位 置 的 电池 单 体 电压 经 党 超 3c 范围 ， 并 且 
它们 的 故障 频率 通常 超过 90%。 定 义 这 种 故障 为 侦 然 故障 ， 原 因为 某 些 偶然 的 问 
题 〈( 如 生产 问题 、 意 外 情况 ) 导致 的 该 单 体 故 障 概率 比较 大 ， 如 图 5-9a 所 示 。 

(2 对 于 大 部 分 车 辆 ,， 有 一 个 或 几 个 固定 位 置 的 电池 单 体 , 它们 的 故 隐 频率 低 
于 35%， 如 图 5-9b、c、d 所 示 。 这 种 故障 的 原因 主要 是 设计 缺陷 和 一 些 固有 的 系 
统 问 题 。 







































































1 T T I 0.35 
和 
故 0.8| (90,0.925)— i 0.3 ( ) [60 0.198) 
障 06| / 
频 (12, 0.144) (40, 0.108) (60, 0.111) 
率 0.4r 
0.2 上 
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电池 单 体 序号 电池 单 体 序号 
a) b) 
0.35 rg 0.35 
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障 ,| (020140 (40.0129 5,0146) 障 >| / (40,0162) / 
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电池 单 体 序号 电池 单 体 序号 
C) d) 


5-9 两 种 类 型 的 故障 对 比 


(2) 实 车 对 照 分 析 
建立 3 层 的 BP 神经 网 络 来 对 第 二 种 故障 进行 特征 拟 合 。 用 大 量 的 数据 样本 
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对 诊断 结果 进行 计算 ， 第 二 种 故障 的 统计 规律 如 图 $-10 所 示 。 其 中 位 置 编 号 为 
12、40、60 的 电池 单 体 ， 故 障 程度 较为 严重 。 下 面 对 此 数据 挖掘 规律 并 进行 实 车 
对 应 分 析 。 





0.25 | | | T 





(12, 0.197) 
(60, 0.160) 


故 (40, 0.142) 
\ 














, hms om bd Cs 
10 20 30 40 50 60 70 80 90 
电池 单 体 序号 
图 5-10 神经 网 络 拟 合 第 二 种 故障 的 统计 规律 


研究 的 某 车 型 的 电池 组 排 布 如 图 5-11 所 示 。 从 图 中 可 以 看 出 电池 组 的 排 布 
为 : 1 一 $8 号 电池 为 卧 式 排 布 ，$9 一 91 为 立 式 排 布 。 我 们 用 三 维 视图 对 电池 组 中 
单 体 进行 描述 ， 并 将 故障 电池 单 体 及 其 临近 部 分 在 实 车 电池 组 中 用 红色 圆圈 标识 
出 来 ,如 图 5-12 所 示 。, 实 车 对 照 的 诊断 结果 表明 在 纯 电 动 汽车 的 电池 组 的 前 底部 ， 
电池 单 体 的 故障 概率 更 大 。 











33~39 








5-11 电池 组 排 布 网 


4. 在 时 间 维 度 上 电池 的 故障 诊断 
(1) 建立 以 天 为 单位 的 时 间 维 度 上 的 月 度 诊 断 模型 
为 了 分 析 在 一 段 时 间 内 的 电池 故障 状态 的 特性 和 变化 ,本 案例 建立 了 以 天 
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图 5-12” 实 车 故障 发 生 位 置 





为 单位 的 纯 电 动 汽车 电池 故障 月 度 分析 。 将 车 辆 的 电池 故 隐 状态 以 天 为 单位 进 
行 统 计 和 分 析 ， 得 到 在 短期 时 间 跨 度 的 情况 下 ， 电 池 故 障 状 态 的 改变 。 其 算法 
如 下 : 
全 电动 汽车 单 体 并 电压 数据 : 
Sp =(C CD (5—19) 


式 中 ， Un 是 一 个 月 内 车 辆 电池 单 体 问 电压 所 构成 的 数据 窍 阵 ; U, 是 车 辆 每 
天 电池 单 体 端 电压 构成 的 数据 矩阵 。 经 故障 诊断 算法 计算 后 ， 得 到 整 月 的 故障 
看 阵 为 





Ru (R',R, ,7 R, ) (5—20) 


式 中 ，R,, 是 整 月 的 故障 和 矩阵，RR 是 第 i 天 的 故障 矩阵 。 
一 个 月 的 故障 频率 矩阵 由 故障 矩阵 计算 得 


[0 pl 一 YR (3=21 ) 
1 j=l 
式 中 ,i 是 第 i 天 的 故障 滤 阵 ; j 指 电池 单 体 在 电池 组 中 的 编号; FA 是 电池 组 
中 第 j 个 电池 单 体 整 月 的 故障 频率 ;Ri 是 Rw 盾 阵 中 第 i 行 j 列 的 值 。 
FF =(FF! FF ms FP un) (3-22) 


式 中 ， FF 是 整个 月 份 的 故障 频率 沧 阵 。 

整 月 的 故障 频率 定 阵 如 图 5-13 所 示 , 从 图 中 可 以 得 到 在 以 月 份 为 跨度 的 时 间 
段 内 ， 电 池 单 体 的 性 能 状态 是 基本 稳定 的 ， 故 障 位 置 和 故障 程度 也 相对 稳定 ， 不 
会 肥 生 较 大 的 改变 。 

(2) 建立 以 季度 为 单位 的 时 间 维 度 上 的 年 度 诊断 模型 

为 了 分 析 在 较 大 时 间 跨 度 上 的 纯 电 动 汽车 电池 的 故障 特性 和 变化 ， 建 立 以 季 
度 为 单位 的 年 度 故障 诊断 分 析 模 型 。 下 和 面 分 析 北 各 地 区 纯 电 动 汽车 全 年 的 故障 情 
况 ， 以 季度 为 单位 运用 神经 网 络 模型 拟 合 每 个 季度 的 故障 分 布 。 
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0.5 | 
政 04 | | 
障 上 | | | | 
频 . 1 | oh 四 
载 0.2 1 | 30 
. | 
0.1 | ”~ 20 
A 
0 Sy 5 
70 80 90 
电池 单 体 序号 
图 S$-13 整 月 故障 频率 矩阵 
纯 电 动 汽车 单 体 端 电压 数据 为 
避 一 (CS ? Ce ? Sp ? Oi ) ( 9523 ) 
式 中 ，U,, 是 全 年 的 电动 车 辆 电池 单 体 端 电压 矩阵 ， Us 、 Us 、 Uw 和 
Uw 分 别 古 四 个 季度 的 纯 电 动 汽 车 电池 单 体 端 电压 矩阵 。 
春 、 收 、 秋 、 冬 四 季 电 池 电 压 数 据 为 
Uins =(U, Us ,Us) (5—24) 
人 人 (Us ? U, ? U, > (S$S—25) 
Um (UU Uy (5-26 1) 
UVwane = (Un, Ca ) 而 
式 中 ，Ui ~ U0, 分别 为 1 月 ~~12 月 的 电池 单 体 问 电 压 数 据 窍 阵 。 
四 季 有 的 故障 频 训 为 
FF ns = (FE, ,FF ,FF,) (5—28) 
FF =(FF, ,FF ,FF ) (5—29) 
FF =(FF ,FF ,FP ) (5—30) 
Fw = (FPR, FR, FPR) (5-31) 


式 中 ，FF ~ FF, 分 别 为 1 月 ~~12 月 的 故障 矩阵 。 





如 图 5-14 所 示 ， 在 北京 地 区 ， 当 车辆 运行 在 春 、 复 、 秋 三 个 季节 时 ， 电 池 运 


行 的 性 能 差距 较 小 ， 故 障 的 位 置 和 频率 相对 稳定 。 然 而 在 冬季 ， 





电池 故障 频率 上 


升 得 非常 显 兰 。 四 个 季节 的 电池 故障 频率 为 [0.0200，0.0191，0.0195，0.0384 | 。 
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其 值 在 收 季 最 低 ， 在 冬季 最 蜗 ， 并 且 在 冬季 故障 频 京 比 其 他 三 个 季 市 平均 要 珊 出 
96%。 同 时 ， 这 个 结果 也 量化 地 反映 了 电池 在 冬季 的 故障 程度 。 





(12, 0.305) 


(12, 0.306) 


(40, 0.180) (40,0.172) (60, 0.191) 





电池 单 体 序号 
a) 
(12, 0.296) (40,0.140) 


(20, 0.133) (60, 0.15) 
(40, 0.170) 


(60, 0.157) 





电池 单 体 序号 电池 单 体 序号 
C) d) 


图 5-14 四 个 季节 电池 故障 频率 


5.2.2 ”动力 电池 系统 健康 状态 评估 


1. 应 用 场景 

动力 电池 电压 故障 是 动力 电池 主要 故障 之 一 ， 目 前 比较 有 效 的 电压 故障 预警 
管理 办 法 非常 少 ， 尤 其 针对 实际 运行 中 的 车 辆 ， 大 多 数 方法 仍 是 基于 实验 数据 开 
展 的 研究 。 所 以 对 新 能 源 汽车 动力 电池 系统 进行 早期 故障 评估 和 预警 研究 是 非常 
必要 的 。 目 前 大 数据 挖掘 方法 更 多 的 是 用 于 大 数据 平台 的 管理 与 服务 ， 尤 其 是 对 
于 新 能 源 汽车 大 数据 管理 平台 的 数据 展示 、 运 行 数据 分 析 、 故 障 数 量 统计 等 方面 
具有 得 天 独 厚 的 数据 优势 。 但 是 随 着 纯 电 动 汽车 安全 事故 频 友 和 各 种 电压 故障 的 
增加 ， 急 需 一 种 可 以 对 动力 电池 电压 安全 实时 评估 和 预警 的 方法 。 

2. 处 理 流程 

(1) 香农 烂 和 ZZ 分 数 

香农 燃 的 概念 是 由 香农 在 1984 年 提出 来 的 ， 主 要 用 来 解决 信息 量化 度量 问 
题 ， 目 前 被 广泛 应 用 在 信息 科学 、 图 像 处 理 等 众多 领域 ， 其 中 主要 用 在 对 系统 的 
混乱 程度 的 描述 。 计 算 公 式 为 
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HI(X)e yy， P(x )logP(x ) (5—32) 


其 中 ,五 (x) 为 样本 和 值 ，P (x;) 为 在 第 i 区 间 内 的 时 间 发 生 的 概率 密度 ; n 为 区 间 
个 数 。 

Z 分 数 〈Z-score) 也 叫 标准 分 数 (standard score)， 在 统计 和 金融 领域 具 
有 风险 预测 的 功能 , 是 一 个 分 数 与 平均 数 的 兰 再 除 以 标准 兰 的 过 程 . 用 公式 表 
示 为 : 

Z= (x-1) /0o ($5—33) 
式 中 ,x 为 菜 一 上 其 体 分 数 ; 4 为 平均 数 ; ce 为 标准 差 。 

Z 的 值 代 表 原 始 分 数 和 母体 平均 值 之 间 的 距离 ， 是 以 标准 关 为 单位 计算 。 在 
原始 分 数 低 于 平均 值 时 ，2Z 为 负数 ;反之 则 为 正 数 。 标 准 分 数 可 以 表示 一 个 给 定 
分 数 距 离 平 均 数 多 少 个 标准 兰 ， 在 平均 数 之 上 的 分 数 会 得 到 一 个 正 的 标准 分 数 ， 
在 平均 数 之 下 的 分 数 会 得 到 一 个 负 的 标准 分 数 。 

标准 分 数 是 一 种 可 以 看 出 茶 分 数 在 分 布 中 相对 位 置 的 方法 。 标 准 分 数 能 够 真 
实地 反映 一 个 分 数 距 离 平 均 数 的 相对 标准 距离 。 如 果 我 们 把 每 一 个 分 数 都 转换 成 
标准 分 数 ， 那 么 每 一 个 标准 分 数 会 以 标准 差 为 单位 表示 一 个 具体 分 数 到 平均 数 的 
距离 或 离 差 。 

为 检测 异常 的 电池 单 体 ， 确 定 一 个 合理 的 实时 检测 和 评估 标准 ， 建 立 基 于 7Z 
分 数 的 开 单 系数， 计算 公式 如 下 : 

1 
4= 
OF 
式 中 ，E 为 某 一 电池 单 体 香 农业 值 ，E,, 为 香农 烂 值 平均 值 ，o# 为 香农 炳 值 的 标 
准 闫 。 

在 燃 值 计算 过 程 中 ， 需 要 不 断 地 进行 迭代 处 理 。 但 是 随 着 采集 车 辆 运行 数据 
量 越 来 越 多 ， 计 算 量 残 越 来 越 大 ， 对 电脑 硬件 要 求 较 高 ， 对 实时 监测 提出 了 更 高 
的 要 求 .因此 需要 对 香农 彤 的 计算 方法 进行 适当 修正 以 满足 实时 在 线 的 检测 需求 ， 
改进 后 的 电压 异常 诊断 和 预警 算法 流程 图 如 图 5-15 所 示 。 

(2) 电压 预警 处 理 

本 各 例 是 基于 国家 级 新 能 源 汽车 监控 管理 与 服务 平台 (National Service and 
Management Center for Electric Vehicles，NSMC-EV) 的 数据 展开 研究 的 。 

为 了 验证 该 方法 的 可 行 性 、 稳 定性 和 可 徘 性 ， 选 择 泵 BIYX X Xx 的 实 车 监控 数 
据 进 行 分 析 ， 所 有 数据 都 是 来 自 于 NSMC-EYV 的 实 车 实时 监控 数据 。 京 BIY X X x 
于 2016-05-09 的 09:50:16 一 10:10:16 发 生 了 过 压 报警 ( 蛙 体 电压 大 于 3.6V, 属于 
大 数据 平台 二 级 故障 )。 分析 故 障 发 生前 1 小 时 和 前 一 天 的 数据 ， 并 夯 出 其 电压 曲 














($5—34) 
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线 以 及 燃 值 曲线 。 图 5-16a 和 分别 显示 故障 肥 生 前 1 小 时 的 电压 曲线 和 烂 值 曲 
线 , 图 5-16c 和 dd 分别 表 示 故 障 发 生前 一 天 的 电压 曲线 和 燃 值 曲线 。 可 以 看 出 ， 
71 写 单 体 的 电压 发 生 了 故障 并 具有 有 寞 第 变化 ， 且 业 值 曲线 变化 腊 常 。 由 此 可 
以 推断 , 我 们 至 少 可 以 提前 1 小 时 或 者 提前 一 天 将 即将 发 生 异 钊 的 单 体 电 字 检 
测 出 来 。 




















nin 一 min{x(i, 7)|i=1,2,3.…k; Xax = max{x(i, j)|i= 0,1,2,3…k: 
7=1,2,3""n} j=0,1,2,3…n)} 


获得 矩阵 BB 的 两 个 极 值 : 












X _—X. XxX. 
f= Inax mn Inax mn 
(ops -sa ,Xn + (a+1) ] 


4a=0.12…1.17=10 





1 
E(x)=[£, BE,""*E, ml E, 人 = 》 log Pi 





,一 改进 香 浓 炉 的 平均 值 
og 一 标准 糯 养 


图 5-15 电压 异常 诊断 和 预警 算法 流程 图 
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为 实现 精确 的 电压 故障 预测 , 我 们 从 大 数据 平台 提取 了 大 量 的 实 车 监测 数据 ， 
并 对 该 方法 进行 了 分 析 验 证 。 通 过 试 错 法 ， 根 据 异 党 系数 4 的 值 将 电压 健康 状态 
实时 评估 和 预警 集 略 分 为 三 个 级 别 ， 如 图 5-17 所 示 。 








al | [A1114| fi 
4 一 尹 4 
3.5 二 级 预 尝 3.5 
安全 
0 0 








图 5-17 ”电压 健康 状态 实时 评估 和 预警 策略 


第 1 级 : 当 所 有 的 单 体 异 彰 系数 都 符合 4 和 3.5 时 ,被 检测 车 辆 的 动力 电池 电 
压 无 异 间 ， 是 安全 状态 。 

第 2 级 : 当 任何 一 个 单 体 的 异 香 系 数 符合 3.5 二 |4|<4 时 ， 补 检测 车 辆 的 动力 
电池 在 二 级 预警 状态 ,其 中 有 异常 电压 但 是 暂时 无 电压 故障 风险 。 在 这 种 情况 下 ， 
继续 观察 几 个 小 时 ， 因 为 可 能 是 由 于 车 辆 运行 状态 突变 引起 误 报 警 。 当 电压 异 稍 
系数 下 降 到 |4| 三 3.5 时 ， 二 级 预警 消除 。 

第 3 级 : 当 任何 一 个 单 体 的 异 利 系数 人 符合 四 兰 4〈 图 S-17) 时 ， 补 检测 车 辆 
的 动力 电池 发 出 异常 报警 。 该 电池 组 检测 到 异常 电压 ， 知 不 及 时 采取 过 电压 报警 
或 屎 压 报 警 等 措施 ， 有 可 能 会 发 生 电 压 故 障 或 者 热 失 控 。 

图 5-18 所 示 为 京 BIYX XXX 不 同时 期 的 异常 系数 曲线 。 根 据 图 5-17 所 示 的 
电压 健康 状态 实时 评估 和 预警 策略 ，71 号 单 体 的 异常 系数 均 符 合 |4| 三 4， 痢 属于 
第 三 级 预警 ， 京 BIYX X X 的 动力 电池 发 出 异常 报警 。 所 以 71 号 单 体 肯定 至 少 
前 一 天 〈2016-05-08 18:48:17 一 19:48:17) 就 已 经 存在 电压 异常 波动 ， 如 图 $-18c 
所 示 。 结果 表明 , 该 方法 可 预先 检测 71 号 单 体 的 异常 电压 , 避免 过 电压 故障 报警 。 
结果 表明 ， 该 方法 能 够 可 靠 准 确 地 实时 评估 电压 健康 状态 ， 并 可 以 预测 电池 组 内 
电压 故障 的 时 间 和 位 置 ， 在 电压 故障 前 发 出 异常 警告 。 

3. 处 理 结果 

基于 新 能 源 汽车 大 数据 平台 , 提出 了 电池 系统 电压 故障 诊断 与 实时 预测 方法 ， 
可 以 实现 电压 健康 状态 实时 评估 和 预警 ， 将 改进 的 香农 炳 应 用 于 监测 数据 分 析 。 
分 析 结 果 表 明 ， 改 进 后 的 香农 炉 可 以 通过 较 小 的 计算 量 检测 出 具有 异常 电压 的 单 
体 电 池 ， 有 效 地 预测 异常 发 生 的 时 间 和 位 置 。 这 使 得 它 在 实际 的 动力 电池 安全 管 
理 系统 中 可 以 得 到 有 效 的 实现 。 通 过 对 大 量 不 同 的 监测 数据 进行 分 析 ， 验 证 了 该 
方法 的 可 行 性 、 稳 定性 、 可 靠 性 和 预测 能 力 。 该 方法 不 仅 适 用 于 新 能 源 汽 车 ， 也 
适用 于 共有 复杂 腊 第 起 伏 环境 的 其 他 应 用 领域 。 
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图 5-18 京 BI1YX XX 不 同时 期 的 异常 系数 曲线 


5.2.3 ”动力 电池 系统 梯次 利用 分 析 


1. 应 用 场景 

随 着 新 能 源 汽车 的 逐步 产业 化 ， 动 力 电池 的 产量 将 大 幅 提 高 ， 随 之 而 来 的 问 
题 是 ,不 再 适用 于 电动 汽车 上 的 动力 电池 该 如 何 回 收 和 处 理 。 动 力 电池 中 含有 铅 、 
旬 、 钴 、 锂 等 金属 材料 和 电解 液 ， 一 旦 废弃 的 动力 电池 不 能 得 到 有 效 的 回收 处 理 ， 
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不 仅 会 造成 资源 浪费 ， 对 环境 污染 也 尤为 严重 。 

根据 国家 有 关 规 定 ， 当 锂 离 子 电池 容量 衰退 至 额定 容量 的 80% 时 ， 就 不 再 适 
合 在 纯 电 动 汽车 上 继续 使 用 ， 为 降低 整 车 成 本 ， 在 锂 离 子 电池 各 功能 元 件 有 效 、 
没有 破损 、 外 观 完好 的 情况 下 ， 可 对 其 进行 梯次 利用 。 梯 次 利用 是 指 某 一 个 已 经 
使 用 过 的 产品 已 经 达到 原生 设计 寿命 ， 再 通过 其 他 方法 使 其 功能 全 部 或 部 分 恢复 
的 继续 使 用 过 程 ， 且 该 过 程 属于 基本 同 级 或 降级 应 用 的 方式 。 车 用 退 运 锂 离 子 动 
力 电 池 ， 可 用 于 储 能 系统 或 低速 电动 车 ; 再 次 淘汰 下 来 的 锂 离 子 电池 即 可 进行 回 
收 、 拆 解 和 再 生 。 通 过 梯级 利用 方式 来 延长 电池 的 使 用 寿命 ， 让 锂 离 子 动力 电池 
的 性 能 得 到 充分 的 发 挥 ， 降 低 动力 电池 全 寿命 周期 成 本 及 整 车 成 本 ， 对 于 推动 新 
能 源 汽 车 行业 的 健康 发 展 具 有 重要 意义 。 

由 于 动力 电池 本 映 制 作 工 艺 和 使 用 过 程 中 在 纯 电 动 汽车 所 处 位 置 的 不 一 致 ， 
导致 退 运 电池 特性 不 一 致 。 故 在 退 运 电池 梯次 利用 前 ， 首 先 要 对 电池 各 个 参数 特 
性 进行 研究 ， 其 中 以 电池 的 容量 特性 、 内 阻 特性 为 主 。 

2. 梯次 利用 锂 离子 电池 容量 特性 

电池 容量 是 指 在 一 定 放电 条 件 下 电池 所 能 给 出 的 电量 。 电 池 容 量 直 接 影 响 电 
池 的 最 大 工作 电流 和 工作 时 间 。 理 论 容量 是 根据 电池 内 部 化 学 变化 计算 的 ， 额 定 
容量 是 由 电池 生产 广 商 给 出 的 。 理 论 容 量 和 额定 容量 只 是 未 使 用 电池 的 参考 指标 ， 
本 节 中 所 用 的 容量 ， 除 特别 标明 时 ， 都 是 指 电池 的 实际 容量 。 

(1) 容量 测试 

梯次 利用 锂 离子 动力 电池 容量 测试 包括 电池 箱 容 量 测 试 和 单 体 电池 容量 测 
试 。 知 电池 处 于 长 期 搁置 状态 ， 则 在 容量 测试 之 前 要 通过 几 次 充 放 电 循 环 ， 对 电 
池 进 行 磨合 。 

《电动 汽车 用 锂 离子 蓄电池 》(QC/T 743 一 2006 标准 ) 规定 : 单 体 电池 需 按 照 
厂家 提供 的 专用 规程 进行 元 电 ， 硅 厂家 未 提供 充电 器 ， 在 (20 土 5) C 条 件 下 ， 昔 
电池 以 1 (3h 放电 电流 ，A) 放电 ， 至 电池 电压 达到 3.0V 或 企业 技术 条 件 中 
规定 的 放电 终止 电压 ) 时 停止 放电 ， 静 置 lh,， 然后 在 20C 士 SC 条 件 下 以 15 (A) 
恒 流 充电 ， 人 至 电池 电压 达 4.2V 《或 企业 技术 条 件 中 规定 的 充电 终止 电压 ) 时 转 恒 
压 充 电 。 充电 电流 降 至 0.152 时 ， 停 止 充电 ， 充 电 后 静 置 1h。 据 此 ， 建 立 电池 容量 
标定 步骤 见 表 5-1。 







































































表 5-1 电池 容量 标定 


步骤 操作 过 程 结束 条 件 


1 2SC 恒 温 箱 静 置 4h 
1/3C 恒 流 充电 至 充电 截止 电压 或 4.2V 
3 恒 压 充电 至 电流 降 至 0.05C 
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( 续 ) 
5 1/3C 恒 流 放电 至 放电 截止 电压 或 3V 
7 重复 步骤 2 一 步骤 6 直至 相 邻 两 次 测试 放出 容量 相差 不 到 士 10% 





(2) 容量 不 一 致 性 分 析 

应 用 上 述 电池 容量 测试 方法 , 以 2008 年 北京 奥运 会 某 辆 电动 大 客车 退 运 电池 
为 例 ， 分 析 电 池 容 量 的 不 一 致 性 。 

实际 测试 得 到 各 个 电池 箱 容量 值 如 图 5-19 所 示 。 其 中 6 号 电池 箱 容 量 明 显 低 
于 其 他 箱 。 后 续 对 单 体 电池 测试 发 现 6 号 电池 箱 中 6-1 号 单 体 电池 实际 容量 为 
144A“。h， 衰 退 至 额定 容量 的 40%。6-1 号 单 体 电池 在 电池 箱 容 量 测 试 过 程 中 首先 
达到 充 放 电 截 至 电压 ， 使 得 6 号 电池 箱 容 量 值 不 到 144A“。h， 也 使 退 运 前 该 车 整 
车 电池 放电 容量 不 到 144A。h， 严 重 拉 低 整 车 电池 最 大 可 用 容量 ， 导 致 其 他 电池 
容量 浪费 。 这 说 明 某 个 单 体 电池 坏死 将 影响 整 车 电池 容量 。 如 果 在 车 运行 时 蔡 换 
出 这 节 坏 死 电池 ， 则 整 车 容量 值 可 以 达到 180A。h， 最 大 可 用 容量 将 提高 10%。 
在 未 来 新 能 源 汽 车 的 发 展 中 ， 单 体 电池 容量 的 定时 检测 必 不 可 少 ， 采 用 蔡 换 法 更 
换 坏 死 电池 ， 有 利于 提高 整 车 电池 容量 值 ， 延 长 电池 使 用 寿命 。 从 图 5-19 中 也 可 
以 看 出 其 他 电池 箱 容 量 也 有 一 定 的 差异 ， 而 容量 衰退 的 不 一 致 性 主要 是 由 于 电池 
的 摆 放 人 位置、 温度、 振动 程度 、 连 接 情况 等 不 同 造成 的 。 
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对 该 车 中 各 小 箱 内 的 电池 单 体 进行 容量 值 测 试 , 结果 如 图 5-20 所 示 。 从 图 中 
可 以 看 出 单 体 电池 在 电池 箱 内 容量 分 布 随机 ， 并 无 一 定 规律 ， 这 是 因为 箱 内 单 体 
电池 热 场 分 布 和 受到 的 振动 情况 较为 复 森 。 同 时 ， 电 池 箱 容量 仿 低 ， 并 不 是 持 体 
电池 容量 均 仿 低 ， 而 是 一 致 性 较 差 导 人 致电 池 箱 容量 利用 京 降低 。 
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5-20 各 电池 箱 内 单 体 电池 的 容量 值 


(3) 容量 分 布 特性 

为 了 得 到 电池 的 容量 分 布 特性 ， 以 茶 辆 奥运 电动 汽车 用 锂 离子 电池 的 全 部 单 
体 为 总 体 , 假设 全 部 单 体 的 容量 服从 正 态 分 布 , 对 94 个 单 体 为 样本 的 容量 数据 做 
非 参 数 检 验 , 包括 K-S 检验 和 S-W 检验 。K-S 检验 与 S-W 检验 的 原 假 设 是 数据 
服从 指定 的 分 布 ， 当 sig (显著 性 指标 ， 表 征 假设 与 实际 平均 值 相 等 的 概率 〉 大 于 
0.05 时 ,说明 数据 服从 指定 的 分 布 。sig 越 大 ， 越 能 说 明 数 据 服从 指定 的 分 布 。 当 
样本 含量 n 三 2000 时 ， 结 果 以 S-W 检验 为 准 ，K-S 检验 结果 作为 参考 。 检 验 结 
条 表明 ， 单 体 电池 容量 呈正 态 分 布 ， 近 似 服从 N 一 “200，34)。 太 外， 对 男 一 辆 
奥运 电动 汽车 的 单 体 电池 分 布 做 非 参 数 检验 ， 检 验 结 果 仍 呈正 态 分 布 ， 近 似 服从 
N~ 一 《200，12)。 两 辆 车 的 电池 容量 分 布 对 比如 图 $-21 所 示 。 

从 图 中 可 以 看 出 两 辆 奥运 电动 汽车 均 服 从 正 态 分 布 ， 且 分 布 类 似 ， 说 明 运 行 
工 况 相似 的 电动 汽车 ,电池 使 用 历史 相似 ,电池 衰退 容量 分 布 具 有 一 定 的 相似 性 。 

3. 梯次 利用 锂 离子 动力 电池 的 内 阻 特性 

电池 内 阻 是 电池 性 能 最 为 重要 的 参数 之 一 ， 是 表征 电池 寿命 及 电池 健康 状态 
的 重要 参数 ， 了 解 电 字 内 阻 特性 对 梯次 利用 具有 重要 意义 。 
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S-21 


(1) 内 阻 测试 
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电池 内 阻 的 测试 包括 欧姆 内 阻 和 极 化 内 阻 的 测试 。 直 流 内 阻 的 测量 方法 采用 
复合 脉冲 电流 法 ， 通 过 测量 电池 输入 电流 阶 跃 信号 AT 并 测定 对 应 的 电压 变化 值 
AU ， 利 用 欧姆 定律 得 到 直流 内 阻 R=AU /AT 。 电 流 对 应 的 电压 响应 如 图 $-22 所 
示 ， 当 电池 开始 放电 后 ， 有 一 个 瞬间 压 降 万， 这 是 由 电池 的 欧姆 内 阻 引起 的 。 欧 姆 
内 阻 引起 的 电压 变化 一 般 维 持 很 短 时 间 ， 一 般 认 为 在 1s 以 内 。 本 文选 择 1s 直流 内 
阻 作为 欧姆 内 阻 。 电 压 突 降 之 后 开始 缓慢 下 降 ,， 这 主要 是 由 电池 的 极 化 内 阻 引起 的 。 
为 了 防止 电池 的 SOC 发 生变 化 引起 压 降 ， 选 择 1 一 10s 内 阻 为 极 化 内 阻 。 
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有 共 体 的 内 阻 测试 步骤 如 下 : 


Q) 电池 置 于 25'C 恒 温 箱 1h。 
@ 以 1/3C 电流 恒 流 充电 至 单 体 截 止 电 压 ， 转 恒 压 充电 至 电流 降 至 0.05C， 
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静 置 1h。 

@) 以 3C 电流 恒 流 放出 50% 的 实际 容量 ， 静 置 1h。 

由 以 1/3C 电流 进行 脉冲 放电 10s， 议 置 lh， 停 止 

(2) 内 阻 分 布 特征 

同样 以 某 奥运 电动 汽车 为 例 ， ee 为 
得 到 电池 的 内 阻 分 布 特性 ， 做 与 上 述 容量 相同 的 假设 检验 。 结 果 表 明 欧 姆 内 阻 和 
极 化 内 阻 均 呈 近似 正 态 分 布 。 欧 姆 内 阻 近似 服从 NW (0.46，0.0021) 的 分 布 ， 极 化 
内 阻 近似 服从 W (0.066，0.00024) 的 分 布 。 画 出 单 体 电池 拟 合 统计 分 布 曲线 ， 如 
图 5-23 和 图 5-24 所 示 : 


25 15 
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2 
多 
多 
， 
失 








0 2 HANA 
0.02 Un 0.08 0.09 0.10 0.11 0.12 
极 化 内 阻 /mo 
图 $-23 ”欧姆 内 阻 分 布 图 图 5-24 极 化 内 阻 分 布 图 


4. 结论 

车 用 退 运 动力 电池 由 于 电池 组 中 各 个 电池 的 温度 、 通 风 条 件 、 自 放电 程度 等 
差异 ， 造 成 了 电池 容量 和 电阻 的 不 一 致 性 。 进 一 步 分 析 电 池 容 量 、 内 阻 的 分 布 特 
征 ， 发 现 都 满足 正 态 分 布 。 

利用 上 述 测量 方法 对 电池 容量 、 电 阻 进行 标定 ， 退 运 没有 利用 价值 的 电池 ， 
同时 考虑 电池 容量 、 电 阻 的 分 布 特征 ， 作 为 电池 重新 饶 选 成 组 的 依据 ， 对 情况 相 
近 的 电池 单 体 进行 成 组 利用 。 

















新 能 源 汽 车 使 用 行为 分 析 与 应 用 


5.3.1 ”驾驶 行为 分 析 与 应 用 


1. 应 用 场景 
获 驶 员 的 获 驶 行为 和 涡 驶 习惯 对 于 车 辆 的 能 耗 有 很 大 的 有 影响。 基于 面 回 大 数 
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据 的 要 驶 行为 分 析 ， 可 以 实现 优化 要 驶 员 行 为 的 功能 。 其 中 能 耗 分 析 是 共有 很 大 
应 用 价值 的 领域 ， 可 以 帮助 运 萌 单位 降低 能 耗 成 本 ， 城 少 车 辆 故障 的 识别 和 诊断 
成 本 。 要 进行 要 驱 行 为 和 能 耗 分 机， 首先 需要 建设 以 下 四 部 分 基础 能 

(1) 道路 线路 识别 

Q) 根据 车 辆 行驶 过 程 中 GPS 反馈 的 地 理 信息 ， 结 合 外 部 信息 能 准确 识别 行 
驶 道路 ， 即 所 在 地 区 以 及 道路 名 称 。 同 时 为 了 解 车 辆 的 运行 环境 ， 需 要 对 其 所 在 
地 的 天 气 数 据 进行 候 取 。 扑 取 的 内 容 包 括 天 气 数据 、 气 温 数 据 、 空 气质 量 数据 、 
降水 量 数据 等 ， 要 求 数据 至 少 每 4 小 时 更 新 一 次 ， 并 将 数据 保存 在 大 数据 分 析 平 
台中 。 

@ 结合 识别 出 来 的 道路 以 及 站 点 位 置信 息 识别 行驶 公交 路 线 , 识别 信息 包括 
有 具体 的 公交 路 线 、 公 交 起 始 站 、 公 交 线 路 中 的 停靠 站 点 等 ， 要 求 每 个 月 更 新 一 次 。 

(3) 结合 行驶 信息 识别 目前 车 辆 所 在 道路 的 路 况 。 

(2) 要 驶 行为 分 析 

(DD 实现 对 全 气候 雪 驶 的 各 种 要 驶 行为 以 及 车 辆 各 种 行驶 指标 的 统计 , 驾驶 行 
为 主要 考虑 雪 驶 的 舒适 性 以 及 安全 性 。 

@ 结合 车 辆 的 行驶 指标 ， 分 析 指 标 与 能 耗 之 间 的 内 在 关联 ,考虑 到 和 车辆 能 耗 
与 公交 工 况 强 相 关 ， 因 此 需要 针对 不 同 的 线路 优化 轨 驶 行为 模型 ， 并 排除 公交 工 
况 的 影响 因素 ， 从 而 使 驾驶 行为 模型 更 准确 。 相 同 公 交 线 路 的 工 况 会 随 着 车 辆 的 
增加 或 道路 规划 的 变化 而 变化 ， 因 此 相同 线路 的 敬 驶 行为 模型 也 需要 具有 优化 升 
级 的 功能 ， 防 止 模型 准确 度 下 降 。 

(3) 安全 /节能 驾驶 指导 

GO 找 出 和 能 耗 相关 性 较 强 的 关联 因子 , 实现 雪 驶 行为 与 能 耗 之 间 的 关系 关联 
分 析 。 

(多 结合 要 驶 行为 与 能 耗 之 间 的 关联 分 析 , 在 兼顾 安全 的 前 提 下 ， 以 提 融 能 耗 
标 为 优化 目标 ， 为 获 驶 员 提 供 指导 ， 在 驾驶 员 按 照 指 导 意 见 的 操作 下 ， 要 求 能 
耗 下 降 或 者 有 下 降 趋 势 。 

(3) 实时 路 线 的 最 优化 选择 。 

(4) 其 他 功能 部 分 

Q) 具备 能 耗 地 图 功能 , 包括 同 车 型 不 同 路 线 能 耗 对 比 、 同 车 型 不 同 区 域 能 耗 
对 比 。 

@ 具有 结合 敬 驶 员 敬 驶 习惯 和 能 耗 的 整 车 关键 系统 与 部 件 的 故障 监控 预测 


























2. 处 理 流 程 
驾驶 行为 分 析 一 能 耗 分 析 服 务 平台 核心 处 理 流 程 包 含 以 下 4 个 部 分 : 
Q) 数据 采集 。 数 据 按 照 数据 采集 标准 规定 的 频率 、 采 集 字 段 以 及 传感器 的 灵 
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敏 度 进行 采集 汇总 。 

@ 数据 的 整合 。 通 过 建立 完备 的 数据 整合 机 制 ， 从 多 源 异 构 的 数据 平台 ,将 
车 机 数据 、 路 网 数据 、 公 交 线 路 数据 、 环 境 数据 、 要 驶 人 员 数 据 进 行 有 效 的 整合 ， 
为 要 驶 行为 分 析 及 能 耗 分 析 提 供 数 据 基 础 。 

G@) 立体 化 分 析 ， 通 过 微观 指标 ， 从 人 、 车 、 路 线 、 地 区 等 多 维度 分 析 ， 以 建 
立 能 耗 微 观 模型 、 驾 驶 行为 评价 体系 、 绿 色 和 驾驶 线路 画像 和 绿色 驾驶 人 员 画 像 。 

(4) 数据 服务 化 , 将 数据 通过 服务 行驶 完成 价值 转化 , 为 主机 广 提供 能 耗 分 析 
结果 ， 为 公交 公司 提供 能 耗 分 析 管 理工 具 ， 为 公交 车 要 驶 人 员 提 供 绿 色 吉 驶 教练 
功能 。 

3. 处 理 结 果 

(1) 整合 公交 、 天 气 、 线 路 数据 与 车 机 数据 

从 网 站 上 疏 取 公交 车 辆 站 点 信息 以 及 通过 轨迹 得 询 平 台 获 取 公 交 车 辆 轨迹 ， 
结果 如 图 $-25 所 示 。 





北京 ,1 路 (四 惠 枢 纽 站 -- 老 山 公 交 场 站 ), 四 惠 枢纽 站 ,116.502814,39.912695 
北京 ,1 路 (四 惠 枢纽 站 - 老 山 公交 场 站 ), 八 王 坟 西 ,116.481685,39.914252 
北京 ,1 路 (四 惠 枢纽 站 -- 老 山 公 交 场 站 ), 郎 家 园 ,116.476507,39.914065 
北京 ,1 路 (四 惠 枢 纽 站 -- 老 山 公 交 场 站 ), 大 北 窗 东 ,116.471418,39.914304 
北京 ,1 路 (四 惠 枢 纽 站 -- 老 山 公 交 场 站 ), 大 北 窗 西 ,116.46146,39.914145 
北京 ,1 路 (四 惠 枢纽 站 - 老 山 公交 场 站 ), 永 安里 路 口 西 ,116.454853,39.914255 
北京 ,1 路 (四 惠 枢纽 站 -- 老 山 公 交 场 站 ), 日 坛 路 ,116.448673,39.914359 
北京 ,1 路 (四 惠 枢 纽 站 - 老 山 公 交 场 站 ), 北 京 站 口 东 ,116.435265,39.914567 
北京 ,1 路 (四 惠 枢 纽 站 - 老 山 公 交 场 站 ), 东 单 路 口 西 ,116.422595,39.914532 
北京 ,1 路 (四 惠 枢纽 站 - 老 山 公 交 场 站 ), 天 安 门 东 ,116.408087,39.914186 
北京 ,1 路 (四 惠 枢纽 站 - 老 山 公 交 场 站 ), 天 安 门 西 ,116.400097,39.913906 
北京 ,1 路 (四 惠 枢纽 站 - 老 山 公交 场 站 ), 西 单 路 口 东 ,116.384525,39.913394 
北京 ,1 路 (四 惠 枢 纽 站 - 老 山 公 交 场 站 ), 复 兴 门 内 ,116.364874,39.913093 
北京 ,1 路 (四 惠 枢纽 站 - 老 山 公 交 场 站 ), 南 礼 士 路 ,116.356624,39.912989 





图 5-25 “公交 车 辆 站 点 及 轨迹 查询 平台 获取 公交 车 辆 轨迹 
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(2) 基于 公交 线路 的 数据 治理 与 线路 识别 

基于 GIS 〈Geographic Information System， 地 理 资讯 系统 ) 进行 道路 及 公交 
线路 死 配 ， 进 行 既 有 线路 匹配 ， 找 出 GPS (Global Positioning System， 全 球 定 位 
系统 ) 偏 移 或 丢失 的 坐标 点 数据 并 修复 ， 如 图 $-26 所 示 。 大 存在 未 知 线路 及 未 知 
站 点 ， 可 基于 随机 空间 游 走 模 型 ， 帮 助 识别 未 能 通过 采集 获得 的 公交 线路 ， 最 终 
形成 公交 线路 识别 的 最 佳 实践 。 


GPS 数据 偶 移 GPS 数据 修复 


| i =- 是 








Li 于 
Ne ct = ee Sl a 


5-26 ”GPS 偏 移 (或 丢失 ) 坐标 点 数据 修复 


(3) 线路 拥堵 识别 

建立 路 线 拥 墙 预警 模型 ， 为 轨 驶 员 实 时 提供 行驶 路 线 拥堵 状况， 帮助 概 驶 员 
合理 规划 出 行路 线 ， 如 图 $-27 所 示 。 

(4) 能 耗 分 析 立 体 化 

(D 对 全 国 、 省 份 、 城 市 、 线 路 等 多 个 级 别 的 典型 工 况 进行 能 耗 分 层次 分 析 研 
究 ， 建 立 各 个 级 别 的 能 耗 热 力图 ， 如 图 $-28 所 示 。 

@ 建立 绿色 雪 驶 能 耗 模 型 , 其 中 能 耗 模型 分 析 因 子 主要 包括 环境 、 概 驶 时 长 、 
速度 、 平 稳 度 和 轰 驶 时 段 五 个 方面 。 基 于 能 耗 模 型 ， 构 建 绿色 轨 驶 行为 评价 体系 ， 
帮助 提醒 区 驶 员 绿 色 要 驶 ， 如 网 5-29 所 示 。 

(3) 绿色 雪 驶 能 耗 监 测 相 关 数 据 产品 展示 如 图 5-30 所 示 。 该 产品 能 够 监控 
车 辆 在 行驶 过 程 中 的 能 耗 情 况 并 进行 评估 打分 ， 帮 助 绝 驶 员 合理 规 划 出 行路 线 。 
图 5-31 是 对 某 一 车 辆 的 能 耗 分 析 报 告 ， 可 对 车 辆 的 能 耗 进行 定性 的 评价 。 
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线路 拥堵 识别 


SUBTExT GOES HERE 


> 输入 一 一 
线路 信息 、 调 度 
信息 、 驾 驶 行为 等 
> 方法 










| 
> 浓 尝 3 
> 数据 加 工 人 
历史 路 线 拥堵 指数 
实时 路 线 拥堵 指数 








5-27 ”线路 拥堵 识别 





as 

| a 

a) 全 国 能 耗 热 图 (局 部 ) b) 线路 能 耗 热 图 
图 5-28 全 国 能 耗 热 力图 (局 部 ) 及 线路 能 耗 热 图 


Z4 能 耗 分 析 立 体 化 一 一 绿色 驾驶 能 耗 模 型 
建立 5 分 项 ，14 因 子 行程 能 耗 分 值 计 算 体系 建立 绿色 驾驶 用 户 画 像 体系 


Es LE 二 | 











早 高 峰 驾 驶 时 长 (**) 时 长 EE] 可 
晚 识 峰 驾 驻 时 长 让 :》 驾驶 总 时 长 fs) -EE 和 | 
夜间 各 驶 时 长 三 疲劳 驾驶 时 长 〔==] I 








图 5-29 ”能 耗 模 型 分 析 因 子 与 用 户 画 像 体系 分 析 图 
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旗 职 学 校 ~ 区 财政 局 : 430 米 


ES 





"We "WEY pr S 机 新 校区 中 国语 vy) 家 全 中 学 
TL 入 "TN Do 
i nD 用 户 组 成 图 
> WAR = 到 家 非 学 村 > 安家 国 六 用 半 全 口 中 国 忻 通 


图 $-30 ”车辆 行驶 过 程 能 耗 情 况 图 


轩 * 轴 加 速度 图; 轴 加 速度 图 z 轴 加 速度 











用 户 信息 Tail 

OQ 
用 户 ID 13812345678 Ho snaaa 罗 wwwWYPANMWwwNwvwww 
车 牌号 粤 A1234AB 中 
线路 号 123456789 Time spsad | ' 忆 
行程 信 息 Cestrar 
开始 时 间 2016-12-12 20:00:15 一 一 本 次 得 分 一 平均 得 分 
结束 时 间 2016-12-12 21:10:00 
总 里 程 76km 780s 790s 800s 810s 风 
区 域 复杂 度 #Routes, %, 24, 26% 正治 
道路 熟悉 度 #Routes, %, 5, 5.4% 运行 
能 耗 信息 轻微 
人 A 、 人 上 St ， a 能 耗 
时 间 2016-12-12 21:09:34 we 中 度 
坐标 44.27， 10.82 一 能 耗 
速度 20km/h 严重 
严重 程度 能 耗 
置信 度 ER 

级 I 级 也 级 MI 级 

能 耗 点 启 停 阶段 Severity 






5.3.2 ”充电 行为 分 析 


1. 应 用 场景 

新 能 源 汽车 作为 一 种 特殊 的 用 电 负 全 ， 它 的 充电 行为 具有 随机 性 和 间 钦 性 。 
因此 我 们 需要 充分 了 解 车 辆 充电 行为 的 特点 并 在 充电 设施 、 电 力 调度 上 做 出 改善 
利用 大 数据 对 车 辆 充电 行为 进行 分 析 , 可 以 更 好 地 得 出 车 辆 充电 行为 的 变化 特点 ， 
并 进一步 分 析 原 因 ， 在 充电 桩 建设 等 方面 做 出 改进 。 

2. 处 理 流程 及 处 理 结 果 

按 季 节 分 类 , 收集 北京 市 2016 年 每 个 季节 纯 电 动 出 租车 充电 数据 , 按照 数据 














185 


新 能 源 汽车 
大 数据 分 析 与 应 用 技术 








挖 据 的 基本 方法 ， 挖 据 充 电 数 据 中 的 潜在 信息 ， 分 析 并 对 比 每 个 季 市 车 辆 充电 行 
为 ， 并 进一步 分 析 差 异 产生 的 原因 。 

(1) 按 季 节 分 类 不 同时 间 段 内 充电 车 辆 情况 

以 半 小 时 为 单位 对 充电 车 辆 数 进行 统计 ， 每 个 季节 充电 高 峰 时 段 规律 基本 
相当 。 充 电 时 间 集 中 在 20:30 一 03:00 和 12:30 一 16:00 两 个 时 间 段 内 ， 如 图 5-32 
所 示 。 








39%0 





4% 


3% 


蔷 济 


2% 


1% 

















0% 











冬 时 刻 


秋 
5-32 不 同时 间 段 充电 车 辆 数 情况 


一 一 春 一 一 夏 


(2) 按 季 节 充 电 开 始 SOC 值 占 比 

春季 由 于 气温 比较 适宜 ， 区 驶 中 不 使 用 空调 设备 ， 轨 驶 员 减 少 了 对 续 驶 里 程 
的 忧虑 ， 故 充电 开始 SOC 值 在 0% 一 20% 的 频率 明显 高 于 其 他 季节 。 由 于 冬季 气 
温 较 冷 , 电池 的 损耗 增加 , 概 驶 员 对 续 驶 里 程 的 忧虑 增加 , 在 SOC 为 S0% 一 100% 
开始 充电 的 频率 明显 高 于 其 他 季节 ， 如 图 $-33 所 示 。 





20% 


16% 








12% 


| | 
上 上 1 | 


0 
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(3) 按 季 节 每 日 充电 开始 时 刻 频率 图 

如 图 $-34 所 示 , 按照 半 个 小 时 分 段 统 计 显 示 , 充电 时 长 频率 峰值 出 现在 夜间 
21:00 一 04:00 时 间 段 内 ， 中 午 11:30 一 1$:00 时 间 段 也 出 现 充 电 时 长 的 小 高 峰 ， 说 
明 概 驶 员 会 在 中 午 进 行 短 时 的 补 电 。 冬 季 和 秋季 在 中 午 高 峰 段 内 的 频率 略 高 于 春 
季 和 收 季 ， 冬 季 和 秋季 中 午时 上 段 元 电 峰 值 开始 的 时 间 也 略微 比 秋 季 和 冬季 提前 ， 
间接 说 明 冬 季 电 动 出 租车 充电 需求 更 大 。 
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图 5-34 ”不同 时刻 充 电 开 始 时 刻 频 这 图 
(4) 按 季 市 不 同时 间 段 充电 时 长 情况 
如 图 5-35 所 示 ， 按 照 半 个 小 时 分 段 统计 显示 ， 充 电 时 长 频率 峰值 分 别 在 
21:00 一 04:00 时 间 段 和 12:00 一 15:00 时 间 段 内 。 说 明 更 多 驾驶 员 在 冬季 倾 回 于 上 晚 
FE 对 出 租车 进行 元 电 。 
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图 5-35 不 同时 刻 充 电 时 长 频率 图 


(5) 按 季 节 不 同时 间 段 平均 充电 量 情况 

如 图 5-36 所 示 ， 按 照 半 个 小 时 分 段 统 计 显 示 ， 充 电量 频率 最 高 峰值 在 
11:30 一 13:00 时 间 段 ， 次 高 充电 量 峰 值 在 14:00 一 15:00 时 间 段 ， 另 一 个 充电 量 峰 
值 在 22:30 一 23:00 时 间 段 ， 充 电量 与 充电 时 长 并 未 同步 变化 ， 说 明 有 快 充 慢 充 的 
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情况 存在 。 且 出 租车 会 在 中 午 和 下 午 这 两 段 时 间 ， 进 行 大 量 的 快 充 补 电 ， 为 下 午 
运营 做 好 准备 ， 同 时 大 部 分 新 能 源 出 租车 也 会 选择 在 夜间 对 车 辆 进行 慢 序 充电 。 
同时 对 不 同 季 节 的 充电 量 进行 比较 ， 可 以 看 出 ， 冬 季 进 行 快 序 补 电 的 充电 量 明显 
大 于 秋 至 ， 秋 至 进行 快 序 补 电 的 充电 量 明 显 大 于 春季 和 收 季 ， 这 说 明 随 看 天 气 的 
渐渐 变 冷 ， 纯 电动 汽车 需要 的 快 元 充电 量 也 随 之 增加 。 
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5-36 不 同时 刻 充 电量 频率 图 


(6) 按 季 节 每 日 首次 充电 时 刻 频率 疼 

由 图 5-37 可 看 出 ,每 季度 充电 开始 时 刻 频率 变化 基本 一 致 , 春季 和 收 季 的 变 
化 相近 ， 秋 季 和 冬季 的 变化 相近 。11:00 一 13:00 时 间 段 内 ， 首 次 充电 时 刻 有 一 个 
小 高 峰 。 这 段 区 间 内 ， 秋 季 和 冬季 频率 明显 高 于 春季 和 收 季 ， 说 明 在 这 两 个 季 ， 
轨 驶 员 更 加 提前 地 进行 车 辆 的 补 电 。 在 20:00 一 22:00 时 间 段 内 ， 首 次 充电 时 刻 出 
现 峰 值 ， 说 明 大 量 出 租车 在 这 段 时 间 内 结束 运营 开始 充电 ， 秋 季 和 冬季 频率 明显 
低 于 春季 和 收 季 ， 说 明 秋 季 和 冬季 更 早 地 结束 运营 并 开始 充电 。 
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图 5-37 每 日 首次 充电 时 刻 频率 图 
(7)〉 2016 年 单车 日 均 充 电量 情况 
如 图 5-38 所 示 ， 对 每 个 月 份 日 均 元 电量 情况 进行 统计 做 出 以 下 树 状 图 ， 
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不 同方 块 的 面积 对 应 每 月 日 均 充 电量 情况 .冬季 充电 量 最 大 , 春季 充电 量 最 小 ， 
秋季 和 夏季 充电 量 情况 相当 。1 月 份 的 日 均 充电 量 大 于 其 他 月 份 ，5 月 份 的 日 
均 充 电量 最 小 。 








秋 
11 月 
春 
10 月 9 月 3 月 4 月 3 





5-38 不 同月 份 单车 日 均 充 电量 树 状 图 


5.3.3 ”行驶 里 程 分 析 


1. 应 用 背 入 

近年 来 ， 北 京 市 政府 一 直 或 励 和 文 持 公 共 服 务 企业 和 个 人 使 用 新 能 源 汽 车 ， 
并 努力 构建 绿色 、 低 碳 、 环 保 的 城市 环境 。 在 公共 交通 领域 ， 北 京 市 已 先后 在 公 
交 、 环 卫 、 出 租 等 领域 开展 新 能 源 汽 车 示范 应 用 。2009 年 9 月 ， 北 京 市 试点 运营 
30 辆 环卫 车 。2011 年 1 月 ， 延 庆 试点 运营 了 50 辆 纯 电 动 出 租车 。2011 年 6 月 ， 
1060 辆 纯 电 动 环卫 车 和 50 辆 公交 车 投入 示范 运营 。 到 2012 年 年 底 ， 公 共 服 务 领 
域 新 增 3000 辆 新 能 源 汽车 。 得 益 于 政府 的 大 力 推广 ， 截 至 2016 年 年 底 ， 北 京 市 
电动 出 租车 的 数量 已 经 增加 到 2164 辆 。 然 而 ， 目 前 纯 电 动 汽车 普遍 存在 着 续 驶 里 
程 不 足 和 充电 时 间 较 长 等 问题 。 在 目前 的 动力 电 字 和 新 能 源 汽车 技术 背景 下 ， 为 
了 充分 利用 续 驶 里 程 ， 减 少 消 费 者 的 里 程 焦虑 ， 研 究 行 驶 里 程 的 影响 因素 并 为 罗 
驶 员 提 供 概 驶 建议 以 尽 可 能 延长 行驶 里 程 具 有 重要 意义 。 

2. 处 理 流 程 

基于 对 车 辆 历史 运行 监控 数据 的 分 析 ， 可 以 发 现 电动 出 租车 日 行驶 里 程 均 在 
一 定 范围 内 波动 。 图 $-39 展示 了 某 出 租车 2016 年 行驶 日 的 行驶 里 程 变化 情况 ， 
该 纯 电 动车 汽车 日 行驶 里 程 在 44 一 366km 的 范围 内 波动 ， 全 年 内 的 日 均 行 驶 里 程 
为 2$4.6km。 通 过 本 案例 的 研究 ， 发 现行 驶 里 程 受 许多 因素 影响 ， 包 括 环境 温度 、 
起 驶 行为 和 充电 行为 等 。 本 案例 将 详细 分 析 以 上 三 个 因素 对 行驶 里 程 的 影 啊 。 

(1) 环境 温度 

动力 电池 的 性 能 很 容易 受到 温度 的 影响， 因此 环境 温度 在 很 大 程度 上 会 影 














189 


新 能 源 汽车 
大 数据 分 析 与 应 用 技术 








吧 纯 电动 汽车 的 能 耗 和 行驶 里 程 。 为 了 研究 温度 与 行驶 里 程 之 间 的 关系 ， 我 们 
收集 并 分 析 了 2016 年 北京 地 区 每 日 的 环境 温度 数据 以 及 实验 车 辆 的 行驶 里 程 
数据 。 图 5-409 展 示 了 2016 年 北京 地 区 的 温度 变化 情况 ， 图 中 阴影 区 域 代表 每 
日 的 温度 变化 范围 ， 实 线 代 表 每 日 的 平均 温度 。 同 时 从 新 能 源 汽 车 监控 平台 中 
导出 了 10 辆 实验 车 辆 的 历史 运行 数据 ， 根 据 时 间 信 息 对 温度 数据 和 运行 数据 进 
行 了 匹配 。 
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图 5-40 ”2016 年 北京 地 区 温度 变化 图 


对 原始 数据 进行 预 处 理 后 ， 绘 制图 5-41 所 示 的 行驶 里 程 与 环境 温度 的 散 点 
图 。 图 中 的 实 线 代表 两 变量 之 间 的 融 斯 回归 结果 。 图 示 结 果 表 明 ， 在 环境 温度 为 
20C 左 右 时 ， 纯 电动 汽车 的 行驶 里 程 达 到 最 大 ;， 当 温度 升 局 或 者 降低 时 ， 行 驶 里 




















日 ”资料 来 源 : Information on http: //www.weather.com.cn。 
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程 均 会 下 降 。 造 成 里 程 下 降 的 原因 是 多 样 化 的 ， 一 方面 ， 随 痢 环 境 温 度 的 降低 ， 
电池 性 能 会 明显 下 降 。Gong X 等 人 的 研究 结果 表明 ， 在 低温 坏 境 下 ， 极 化 效应 将 
导致 纯 电动 汽车 的 电池 性 能 受 限 ， 在 0C 以 下 ， 锂 离子 电池 将 会 有 10% 的 容量 衰 
减 。 慷 外 一 方面 ， 当 环境 逮 度 超过 人 体 的 舒适 水 平时 ， 概 驶 员 将 会 更 加 频 每 地 使 
用 空调 ， 从 而 导致 额外 能 源 消耗 。Samadani E 等 人 的 研究 结论 表明 ， 使 用 空调 会 
导致 纯 电 动 汽车 在 标准 循环 工 况 下 的 行驶 里 程 平 均 减 少 19% 左 右 。 此 外 ， 在 较 低 
的 环境 进度 下 ， 动 力 电 池 性 能 的 袁 退 和 续 驶 里 程 的 减少 会 使 得 驾驶 员 产 生 更 多 的 
“里 程 焦 奈 ”。 因 此 尽管 电动 汽车 有 足够 的 剩余 能 量 ， 轨 驶 员 仍 有 可 能 停止 驾驶 以 
确保 不 会 在 没有 充电 站 的 地 方 被 迫 俘 车 。 
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图 5-41 温度 与 行驶 里 程 的 散 点 图 

(2) 要 驶 行为 

驾驶 行为 是 轨 驶 员 对 车 辆 实时 工 况 做 出 的 即时 反应 ， 更 直观 地 表现 为 驾驶 员 
如 何 操纵 加 速 踏 板 和 制 动 踏板 。 不 同 的 轨 驶 行为 将 造成 能 耗 和 行驶 里 程 上 的 明显 
差异 。 激 烈 的 驾驶 行为 将 会 增加 能 耗 ， 进 而 减少 电池 的 剩余 能 量 和 行驶 里 程 ， 而 
相对 冷静 的 鸭 驶 行为 将 会 在 一 定 程度 上 延长 纯 电 动 汽车 的 行驶 里 程 。 

使 用 行驶 过 程 中 的 加 速度 分 布 情况 来 衡量 驾驶 模式 的 激烈 水 平 。 图 5-42 展示 
了 实验 车 辆 某 段 行驶 过 程 的 车 速 和 加 速度 分 布 情况 ， 阴 影 部 分 代表 速度 变化 ， 实 
线 代 表 计 算得 出 的 加 速度 变化 曲线 。 

根据 车 辆 加 速度 的 分 布 , 驾驶 行为 可 划分 为 冷静 、 普 通 和 激进 三 种 典型 模式 。 
加 速度 标准 差 越 大 , 意味 着 驾驶 行为 的 激进 程度 越 高 。 图 5-43 展示 了 三 种 轰 驶 模 
式 的 加 速度 分 布 曲线 及 其 标准 差 ， 从 网 中 的 结果 可 以 看 出 随 着 加 速度 标准 差 的 增 
大 ， 加 速度 的 分 布 更 加 离散 ， 这 意味 着 驾驶 员 在 芍 驶 过 程 中 有 更 多 的 急 加 速 和 和 急 
减速 行为 ， 换 言 之 ， 芍 驶 行为 更 激进 。 
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图 5-42 研究 车 辆 的 速度 和 加 速度 曲线 


为 了 排除 环境 温度 的 影响 ,使 用 实验 车 辆 在 6 月 和 7 月 的 行驶 数据 研究 驾驶 
行为 的 影响 效果 。 图 5-44 展示 了 研究 时 间 段 内 实验 车 辆 的 加 速度 标准 过 和 行驶 里 
程 的 散 点 独 以 及 回归 结束。 结 末 显示 ， 和 芋 辆 加 速度 标准 送 和 行驶 里 程 之 间 存 在 看 
明显 的 负 相 关 关 系 。 也 就 是 说 ， 激 进 的 驾驶 行为 会 在 一 定 程度 上 减少 行驶 里 程 。 
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图 5-43 不 同 模式 下 加 速度 分 布 5-44 ”车 辆 加 速度 标准 差 与 行驶 里 程 的 散 扣 图 

(3) 元 电 行 为 

电动 汽车 的 充电 时 间 一 般 较 长 ， 因 此 充电 行为 (包括 充电 次 数 和 充电 量 〉 成 
为 影响 行驶 里 程 的 重要 因 系 , 合理 安排 充电 行为 可 以 在 一 定 程度 上 增加 行驶 里 程 。 
图 5-45 展示 了 充电 次 数 与 行驶 里 程 的 散 扣 图 以 及 回归 结果 ,图 示 结 果 表 明和 车 辆 的 
充电 次 数 和 行驶 里 程 之 间 存 在 看 强烈 的 正 相 关 天 系 ， 平 均 每 日 充电 三 次 的 出 租车 
比 每 日 充电 两 次 的 车 多 行驶 100km， 比 每 日 充电 一 次 的 车 多 行驶 175km。 
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图 5-45 日 充电 次 数 与 行驶 里 程 的 散 点 图 


此 外 , 充电 量 的 多 少 直 接 影响 了 行驶 里 程 。 图 5-46 展示 了 充电 量 与 行驶 里 程 
的 散 点 图 以 及 回归 结果 ， 图 中 黑色 和 灰色 分 别 代 表 收 季 和 冬季 的 统计 结果 。 可 以 
看 出 ,行驶 里 程 随 着 充电 量 的 增加 而 增加 。 同 时 可 以 注意 到 ,在 相同 的 序 电量 下 ， 
夏季 的 行驶 里 程 明显 高 于 冬季 。 
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图 5-46 日 充电 量 与 行驶 里 程 的 散 点 图 


通过 对 充电 数据 的 统计 和 分 析 可 以 发 现 出 租车 驾驶 员 平 均 每 两 天 进行 一 次 
快速 充电 , 平均 一 天 左右 进行 一 次 慢 速 充电 , 总 体 上 快慢 充 选 择 比 例 约 为 1:2.5， 
慢 充 次 数 多 于 快 充 次 数 。 造 成 这 种 状况 的 原因 有 : 快 充 充 电 桩 数量 较 少 ， 在 家 
里 进行 慢 充 所 产生 的 费用 低 于 在 公共 领域 充电 。 因此 驾驶 员 倾 向 于 选择 在 家 中 进 
行 慢 充 。 

(4) 其 他 因素 

除了 以 上 分 析 的 三 种 影响 因素 之 外 ， 还 有 其 他 一 些 因 素 ， 如 车 型 、 行 驶 区 域 
和 行驶 日 期 等 ， 也 会 影响 电动 出 租车 的 行驶 里 程 。 本 节 将 对 这 些 影响 因素 进行 简 
要 的 分 析 。 

目前 ,北京 市 在 怀柔 、 房 山 、 顺 义 等 10 个 区 域 投入 使 用 了 电动 出 租车 。 图 5-47 
中 的 日 均 行驶 里 程 箱 线 图 展示 了 不 同 区 域 的 电动 出 租车 的 行驶 里 程 分 布 情况 。 可 
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以 看 出 ， 不 同 区域 的 行驶 里 程 分 布 存 在 看 明显 大 异 。 这 种 到 异 一 般 是 由 区 域 之 间 
经 济 发 展 的 过 民 和 乘坐 出 租车 出 行 需 求 差异 造成 的 。 


日 均 行 驶 里 程 Kkm 
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图 5-47 不 同 地 区 的 日 均 行驶 里 程 对 比 
由 于 电池 容量 和 和 车辆 配置 的 差异 ， 五 种 电动 出 租车 车 型 在 行驶 里 程 上 有 不 同 


的 表现 。 图 5-48 所 展示 的 结果 表明 日 均 行驶 里 程 和 车 辆 续 驶 里 程 密切 相关 , 一 般 
来 说 ， 日 均 行驶 里 程 约 为 车 辆 标定 续 驶 里 程 的 75% 左 右 。 
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图 5-48 ”各 车 型 日 均 行驶 里 程 与 标定 续 驶 里 程 对 比 图 


对 于 行驶 日 期 ,图 5-49 分 别 展示 了 电动 出 租车 在 工作 日 、 周 末 和 市 假日 的 行 
驶 时 长 和 行驶 里 程 。 不 同日 期 的 行驶 时 间 和 行驶 里 程 可 按 降序 排列 为 工作 日 、 周 
末 和 假日 。 造 成 这 种 结束 的 原因 可 能 是 人 们 更 倾 问 于 在 工作 日 选择 电动 出 租车 在 
工作 地 点 和 家 庭 之 间 通 勒 。 在 周末 和 假期 ， 一 些 乘客 可 能 基于 其 他 出 行 目的 而 选 
择 多 样 化 的 出 行 方式 。 
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9， 结论 


本 案例 基于 北京 市 电动 汽车 监控 与 服务 中 心 扣 供 的 车 辆 历史 运行 数据 ,分 析 了 
影响 电动 出 租车 行驶 里 程 的 主要 因 和 妹 。 分 析 结 朱 表 明 ， 环 境 温 度 、 要 驶 行为 和 充电 
行为 会 显著 影响 电动 出 租车 的 行驶 里 程 。 冯 先 ， 温度 的 影响 可 以 概括 为 : 环境 温度 
为 20C 时 ， 行 驶 里 程 最 大 ， 在 20C 以 外 ， 随 看 光度 上 升 或 下 降 ， 行 驶 里 程 均 会 下 
降 。 其 次 ， 诉 烈 的 芝 驶 行为 会 增加 能 量 的 消耗 ， 减 少 行驶 里 程 ， 而 相对 冷静 的 鸭 驶 行 
为 会 在 一 定 程度 上 延长 行驶 里 程 。 最 后 ， 行 驶 里 程 随 痢 充电 次 数 和 充电 量 的 增加 而 增 
加 。 值 得 注意 的 是 , 充电 行为 会 明显 地 受到 充电 基础 设施 建设 和 充电 费 率 标准 的 影响 。 
除 此 之 外 ， 一 些 其 他 因 系 如 车 型 、 行 驶 区 域 和 行驶 日 期 ， 也 会 影响 行驶 里 程 。 

根据 本 案例 的 研究 结论 ， 敬 驶 员 可 以 采取 适当 的 措施 以 延长 行驶 里 程 。 例 如 
尽量 减少 急 加 速 和 忽 减 速 行为 ， 你 持 冷 静 的 驾驶 模式 ; 政府 应 当 加 快 充电 设施 的 
建设 并 降低 充电 费用 以 满足 电动 汽车 消费 者 的 充电 需求 。 此 外 ， 可 以 基于 上 述 分 
析 开 发 驾驶 辅助 系统 。 为 驾驶 员 所 供 各 驶 建议 ， 帮 助 他 们 调整 驾驶 行为 ， 保 障 电 
动 汽 车 处 于 最 佳 行驶 条 件 ， 延 长 行驶 里 程 。 
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5.4.1 分 时 租赁 应 用 

1. 应 用 背 录 

随 着 道路 交通 需求 持续 快速 增长 ， 很 多 一 线 城市 的 出 行 需 求 增长 已 经 远 远 超 
过 道路 交通 供给 增长 水 平 ， 出 行 的 供需 矛盾 日 益 尖 锐 ， 分 时 租赁 应 运 而 生 。 发 展 
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分 时 租赁 不 仅 符 合 新 能 源 汽车 发 展 规划 ， 而 且 可 以 提升 车 辆 使 用 效率 ， 绥 解 交 通 
压力 ， 减 低 环境 污染 。 

本 小 节 介 绍 了 用 于 估计 纯 电 动 汽 车 分 时 租赁 规模 的 两 种 研究 方法 : 相关 性 分 
析 方 法 和 回归 分 析 方 法 。 并 以 北京 市 为 例 ， 对 北京 市 目前 的 分 时 租赁 市 场 规 模 进 
行 预 测 。 

2. 相关 性 分 析 方 法 

相关 性 分 析 方 法 主要 是 基于 小 范围 的 用 户 特征 调 得 得 到 总 体 用 户 特 征 ， 并 且 
找 出 相关 程度 最 大 的 变量 以 定位 分 时 租赁 市 场 适用 人 和 群 的 特征 ; 成 功 的 分 时 租赁 
项 目 是 为 了 解决 上 班 族 日 常 通勤 以 及 社区 居民 日 常 出 行 的 需求 。 因 此 需要 基于 一 
定 的 原则 选 出 符合 分 时 租赁 目标 用 户 特 征 的 区 域 ， 再 从 区 域 的 居住 和 工作 人 口 入 
手 ， 进 行 分 时 租赁 规模 预测 。 

(1) 处 理 流程 

(D 粗略 科 选 。 基 于 区 域 人 口 普 碍 数据 及 居民 使 用 非 私家 车 出 行 的 比例 ， 饶 选 
出 符合 要 求 的 区 域 。 

@ 精细 筷 选 。 具 体 方法 是 , 依据 区 域 站 点 周边 车 辆 数目 的 不 同 , 将 该 区 域 的 
分 时 租赁 预计 友 展 情况 分 为 两 类 : 低速 有 友 展 (可 行 ， 但 是 增 速 有 限 ) 和 高 速 发 展 
(很 有 可 能 增 速 迅 狐 )， 并 且 调 查 统计 与 之 最 相关 的 特征 值 ， 最 后 进行 描述 性 统计 
的 汇总 。 

(3) 根据 区 域 人 数 ,结合 一 定 的 估计 方法 进行 需求 估计 。 考虑 到 获取 区 照 的 年 
龄 段 以 及 人 员 对 新 鲜 事 物 的 接受 程度 , 统计 第 二 步 筛选 区 域 中 21 一 5$ 岁 的 居民 和 
工作 人 数 ， 依 据 一 定 的 市 场 渗透 率 估 计 潜 在 的 会 员 数 目 ， 依 据 一 定 的 人 车 比 (会 
员 数 与 分 时 租赁 车 辆 数 的 比例 ) 估计 需要 的 车 辆 数目 。 

市 场 渗透 率 是 指 参与 分 时 租赁 的 会 员 数 目 占 区 域 总 人 口 的 比例 。 根 据 行业 和 
地 区 的 不 同 ， 市 场 渗透 率 的 选取 也 有 上 所 不 同 。 人 和 车 比 是 指 注册 会 员 人 数 与 分 时 租 
攒 车 辆 的 比例 ， 即 一 辆 分 时 租赁 车 辆 服务 的 会 员 人 数 。 由 于 注册 会 员 有 活跃 与 非 
活跃 之 分 ， 实 际 统计 往往 未 别 除 非 活跃 会 员 人 数 ， 因 此 理论 上 一 辆 车 服务 的 会 员 
数 要 比 实 际 的 多 。 

(2) 计算 实例 

以 北京 为 例 ， 利 用 相关 性 分 析 预 测 分 时 租赁 的 市 场 。 

由 于 短期 内 难以 调查 获取 较为 精确 的 区 域 特征 数据 ， 在 实际 计算 时 ， 区 
域 范 围 以 北京 16 区 进行 划分 。2013 年 北京 16 区 的 户 均 私人 汽车 保有 和 情况 见 
表 5-2。 
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表 S-2 2013 年 北京 市 民用 汽车 保有 情况 


单位 : 辆 ) 


0.SS 


0.85 


0.72 


0.53 


0.57 


0.49 


0.66 


0.47 


0.42 


0.50 


0.53 


0.53 


0.38 


0.40 


0.43 


0.33 


0.37 


第 一 步 种 选 时 ， 由 于 没有 获取 到 各 区 的 出 行 结构 ， 暂 时 采用 区 域 户 均 私人 汽 














车 保有 量 作 为 筛选 标准 。 以 0.45 辆 的 户 均 私人 汽车 保有 量 作 为 分 界线 ， 将 生态 涵 
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养 发 展区 的 五 个 区 县 排除 。 同 时 ， 考 虑 到 通州 在 北京 的 规划 发 展 战 略 地 位 ， 将 其 
纳入 分 时 租赁 考 上 处 的 发 展区 域 中 。 

在 第 二 步 筛 选中， 由 于 有 具体 数据 缺乏 ， 暂 时 将 所 有 区 都 纳入 备 选区 。 

在 第 三 步 筛选 时 ,统计 各 区 职 住人 口 (在职 居住 人 口 );， 因 为 采用 的 是 常住 人 
口 ， 已 经 包含 工作 人 口 ， 所 以 只 需要 直接 进行 21 一 5$ 岁 人 口 肾 选 ， 得 到 的 这 部 分 
人 数 是 1181 万 人 。 

Q) 人 车 比 和 渗透 率 的 选取 。 人 车 比 和 渗透 率 的 选取 参照 成 熟 市 场 的 发 展 经 
验 ， 表 5-3 是 美国 分 时 租赁 不 同 发 展 阶 段 的 人 车 比 和 渗透 紊 情况 。 可 以 看 出 ， 北 
京 现 阶段 分 时 租赁 发 展 情况 与 美国 初期 发 展 情况 一 致 。 


表 S$-3 美国 三 个 发 展 阶段 的 人 车 比 和 渗透 率 














美国 北京 ( 绿 狗 租车 ) 


时 间 2003.07 2008.07 2013.07 2015.03 


车 辆 数 1093 7507 20 830 700 
会 员 数 32 647 318 898 1 149 258 15 000 


渗透 率 (1/104) 0.03 0.27 1.14 一 





本 案例 中 ， 人 车 比 采 用 的 是 美国 2003 年 、2008 年 和 2013 年 的 人 车 比 数据 ， 
分 别 代 表 了 初期 、 中 期 和 稳定 期 三 个 不 同 阶段 的 发 展 水 平 。 

在 选取 渗透 率 时 ， 结 合 北京 的 实际 情况 ， 现 在 接 入 监控 平台 的 分 时 租赁 
辆 已 经 有 3000 辆 左右 。 此 外 ， 在 进行 人 口 统 计时 ， 采 用 的 数据 是 北京 市 常住 
人 口 ( 全 年 经 弟 在 家 或 在 家 居住 6 个 月 以 上 ,而且 经 济 和 生活 与 本 户 连 成 一 体 
的 人 口 )， 而 未 考虑 短期 旅游 和 商务 出 差 的 人 口 〈 实 住人 口 )， 其 实 这 部 分 人 的 
需求 对 总 需求 也 是 有 影响 的 。 综 合 以 上 情况 ， 估 计 有 需求 时 的 渗透 率 为 3% 一 
10%。 

@@ 会 员 数 和 车 辆 数 估算 。 配 合 选 取 的 不 同 的 渗透 率 和 人 车 比 , 对 会 员 数 和 车 
辆 数 进行 估计 ， 如 图 5-50 所 示 。 

从 美国 的 发 展 情况 来 看 ， 市 场 渗透 率 和 人 车 比 随 着 发 展 情况 由 小 变 大 。 假 设 
北京 未 来 分 时 租赁 发 展 变化 趋势 也 与 美国 变化 趋势 一 致 ， 则 网 中 的 红色 虚线 是 较 
为 合理 的 发 展 趋势 。 可 见 目 前 发 展 初期 的 会 员 数 目 有 将 近 35 万 人 ,发 展 到 中 期 有 
77 万 人 ， 发 展 到 稳定 期 有 118 万 人 ; 对 应 的 车 辆 数目 为 1.22 万 辆 (初期 )，1.69 
万 辆 (中期)，2.15 万 辆 (稳定 期 )。 























198 


第 5 章 


新 能 源 汽车 的 运行 大 数据 统计 分 析 与 应 用 实例 




































































4.50 | ) 140.0 
4-07 
Si 3.87 3.97 | 1200 
3.50 
十 100.0 内 
一 3.00 55 入 
轰 > 74 2.81 洋 
区 67 了 800 本 
— 2.50 FA4 BE = 
I ===) 15 过 
大 200| -一 0 一 1 2.04 汪 “209 的 丰 二 
半 1.69 
村 ] 50 -2 1.56 | 
ee 134 全 -400 
Ro | 
1.00 i 0 一 一 
0.64 一 -一 一 0.70 20.0 
0.50 | 一 了 
35 4 38 4 56.1 70.9 85.6 22 115.1 118.1 而 
0.00 _| 0 
3.00% 3.25% 4.75% 6.00% 7.25% 9.50% 9.75% 10.00% 
会 员 数 目 一 一 人 车 比 为 55 时 的 车 辆 数 
人 车 比 为 42 时 的 车 辆 数 人 车 比 为 29 时 的 车 辆 数 
图 5-50 ” 会员、 车 辆 数 日 随 滩 透 率 和 人 车 比 变 化 的 情况 


3. 回归 分 析 方法 

回归 分 析 方 法 主要 是 通过 建立 回归 模型 的 方式 建立 租赁 市 场 规模 相关 变量 
(如 站 点 用 户 活跃 度 、 普 通 人 选择 分 时 租赁 的 概率 等 ) 与 各 类 因素 之 间 的 数学 天 系 。 
根据 回归 数学 模型 ， 输 入 某 个 特定 区 域 的 区 域 特征 ， 即 可 输出 区 域 的 需求 。 前 期 
调查 的 样本 容量 越 大 ， 基 于 回归 分 析 的 预测 就 越 准 确 。 

(1) 处 理 流程 

在 美国 交通 研究 学 术 委 员 会 2005 年 的 报告 中 , 试图 建立 起 美国 各 大 城市 已 有 
的 分 时 租赁 站 点 周边 0.5km 半径 圆 形 区 域内 的 分 时 租赁 车 辆 数目 ， 与 该 区 域内 的 
地 理 特征 、 家 性 组 成 、 汽 车 你 有 情况 和 交通 出 行 模式 (一 共 13 个 变量 ) 之 间 的 多 
元 回归 模型 ， 并 且 选 出 了 拟 合 程度 最 好 的 一 个 多 元 回归 模型 如 下 

LOS=11.305-6.564v+0.002 13w (5—35) 

式 中 ，LOS 为 服务 级 别 ， 表 示 站 点 周边 0.5km 半径 圆 形 区 域 范围 内 的 分 时 租赁 
辆 数目 ; v 为 区 域内 户 均 车 辆 数目 ，w 为 区 域内 步行 通 勒 人 数 。 

根据 回归 模型 给 定 一 个 站 点 周边 的 区 域 特征 ， 束 能 计算 出 站 点 所 需要 配置 的 
车 辆 数目 。 但 是 这 个 回归 模型 不 能 对 需求 人 数 进行 预测 ， 且 回归 模型 的 系数 也 会 
随 看 区 域 的 改变 而 改变 。 

除 此 以 外 ， 该 报告 还 给 出 了 所 有 特征 与 LOS 之 间 的 相关 系数 ， 见 表 5-4。 
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表 5-4 区 域 特征 概览 
特征 名 称 
特征 分 类 相关 系数 值 针对 范围 
代号 解释 








地 理 特征 
区 域内 居民 
有 1 辆 车 家 庭 比例 


Es 


驾车 上 班 的 人 数 占 比 
拼车 上 班 的 人 数 占 比 

地 铁 公交 上 班 的 人 数 占 比 
自行 车 上 班 的 人 数 占 比 
步行 上 班 的 人 数 占 比 


该 模型 并 不 是 严格 的 多 元 线性 回归 模型 ， 而 只 是 一 种 无 法 获取 数据 下 的 近似 
计算 。 
具体 计算 方法 为 ; 


六 


MX 


Ee 


交通 出 行 模式 


[| 


P=Nit+N2+N3+Na ($5—36) 
式 中 ，P 为 站 点 周边 居民 的 需求 人 数 ;， N 为 地 理 特征 对 应 的 需求 人 数 ;，WN; 为 家 
姓 组 成 对 应 的 需求 人 数 ，W; 为 汽车 保有 情况 对 应 的 需求 人 数 ; Na 为 交通 出 行 模 














式 对 应 的 需求 人 数 。 
其 中 : 
Ni=[0.174G，+ 0.290G,,]S (5-37) 
N2 =[0.478H,, -0.412H., + 0.301H, ]R (5-38) 
Ns3=[-0.458V. + 0.399 斑 + 0.488V]R (5-39) 


Ni=[-0.431M -0.363M_ + 0.104M -0.0031M + 0.512M, ]K 
(5-40) 
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式 中 ，5 为 站 点 周边 区 域 面积 ，R 为 区 域 住户 数目 ; K 为 区 域内 的 工作 人 数 。 
考虑 一 个 地 区 的 居民 和 上 班 族 对 于 分 时 租赁 的 需求 ， 初 步 拟 定 估算 步 又 为 : 

GO 区 域 划分 与 科 选 。 绪 合 区 域 发 展 情况 和 特点 , 选 出 一 定 的 发 展区 域 (可 
以 依据 相关 性 分 析 中 提 到 的 指导 标准 )， 最 好 能 够 细 化 到 0.5km 半径 圆 形 区 域 
以 内 。 

名 统计 各 个 区 域 各 大 特征 对 应 内 变量 ,计算 区 域内 存在 需求 的 会 员 人 数 。 
前 面 论 述 已 经 提 及 ， 这 时 的 计算 并 不 是 依照 严格 的 线性 回归 ， 而 仅仅 是 一 种 近 
似 计算 。 

(@@) 结合 第 二 步 筛 选 出 来 的 会 员 人 数 , 结合 人 车 比 估计 所 需 的 车 辆 数目 。 人 车 
比 的 估计 参考 与 前 述 方法 相同 ， 还 是 采用 29、42 和 55 代表 初期 、 中 期 和 稳定 期 
三 个 不 同 发 展 阶段 进行 估计 。 

(2) 计算 实例 

ws 利用 回归 分 析 去 预测 分 时 租赁 的 市 场 。 

一 步 科 选 时 ， 与 相关 性 分 析 的 方法 一 致 。 

RC 

所 示 。 





















































不 同类 型 家 庭 比例 户 均 汽 车 保 无 车 家 庭 有 1 辆 车 驾车 出 行 拼车 出 行 公交 地 铁 自行 
社区 密度 交叉 口 密度 1 人 有 孩子 ”租房 有 量 比例 ， 家庭 比 比例 比例 出行 比例 行 
0. 1742173 25. 97% 43. 55% 37. 15% 0. 55227346 45% 40% 11.10% 4.7% 55.90% 

























































































4. 4672719 14 23. 91% 48. 63% 40. 80% 0. 85483649 15% 65% 11.10% .7% 55.90% 
5. 046507 23. 26% 46. 83% 39. 47% 0. 71989202 28% 52% 11.10% .7% 55.90% 











Ey 
法 
风 


0. 8525973 4 31. 04% 37. 98% 38. 38% 0. 52624797 47% 33% 11.10% .7% 55.90% 
25. 28% 43. 54% 40. 82% 0. 56687593 43% 37% 11.10% 55. 90% 
20. 52% 47. 84% 30. 92% 0. 48674352 51% 29% 11.10% 4. 55. 90% 
1. 3233348 28. 44% 42. 48% 41. 07% 0. 65549021 34% 46% 11.10% 4. 7% 55.90% 











0. 2930326 16. 73% 52. 63% 20. 85% 0. 46943737 53% 27% 11.10% .7% 55.90% 
23. 47% 44% 23. 02% 0.4183721 58% 22% 11.10% .7% 55.90% 

20. 91% 48. 43% 31. 79% 0. 50366407 50% 30% 11.10% .7% 55.90% 

24. 39% 43. 07% 35. 31% 0. 52887649 47% 33% 11.10% .7% 55.90% 
0. 6793268 25. 40% 43. 37% 39. 18% 0. 52837453 47% 33% 11.10% .7% 55.90% 


图 5-51 北京 市 各 区 区 域 特 征 数 据 收 集 情 况 概 唤 





























4 N 渣 上 
风 风 风 风 风 当 风 风 风 风 当 











结合 相关 系数 的 计算 方法 ， 计 算得 到 各 类 需求 人 数 见 表 5-5。 


表 S$-S 需求 人 数 分 类 计算 及 汇总 表 








根据 地 理 特征 计算 的 “| 根据 居民 特征 计算 的 | 根据 上 班 族 出 行 结构 总 需求 人 数 
需求 人 数 P， 需求 人 数 P 计算 的 需求 人 数 P， | (P,+P,, 没有 包括 P,) 


1 180 715 


东城 区 
西城 区 


22 382 


38 236 
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( 续 ) 
根据 地 理 特征 计算 的 | 根据 居民 特征 计算 的 | 根据 上 班 族 出 行 结构 总 需求 人 数 
需求 人 数 忆 需求 人 数 己 计算 的 需求 人 数 P， | (PtP,， 没 有 包括 P,) 





城市 功能 拓展 区 


朝阳 区 1915 326 980 31 845 358 825 
丰台 区 1293 143 888 13 635 157 522 


有 忆 
Oe . 308 29 450 4495 33 945 


城市 发 展 新 区 


因为 地 理 特 征 中 的 交叉 口 密 上 度数 据 难以 获得 ， 所 以 在 结果 汇总 中 别 除 了 地 理 
特征 对 应 的 需求 ， 计 算出 当前 发 展 初 期 ， 北 京 的 大 民 和 职业 人 士 对 分 时 租赁 的 需 
求 数 量 为 118 万 人 。 

第 三 步 ， 将 该 需求 人 数 除 以 人 车 比 得 出 车 辆 需求 。 不 同人 车 比 下 的 车 辆 规模 
如 图 5-52 所 示 。 

































































450 = 
4.07 
二 生出 二 ——— 
忌 
民 350 = E 
300 -< 2 81 四 
We 
2 15 
村 200 
械 
慨 150 .| 国有 
这 
丸 1.00 Wi 
630 国 
000 ~ 一 
二 42 29 


人 数 车 数 比 (简称 人 车 比 ) 
图 5-52 ”依据 不 同人 车 比 估 计 的 分 时 租赁 车 辆 数 日 
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如 果 认 为 现在 是 发 展 初 期 ，118 万 的 会 员 规 模 只 是 初期 会 员 的 规模 ， 则 应 该 
采用 29 的 人 车 比 计 算出 来 的 车 辆 规模 一 一 4.07 万 辆 ;而 如 果 认 为 现在 是 稳定 期 ， 
118 万 会 员 数 目 己 经 是 极限 , 则 推荐 采用 55 的 人 车 比 计算 出 来 的 车 辆 规模 一 一 2.15 
万 辆 。 

上 述 计算 过 程 中 各 个 变量 对 118 万 需求 人 数 的 影响 如 图 5-53 所 示 。 























150% 
101% 197% 





100% 





























Lh, 65% 
50% 
15% 17% 
0% 本 

! 吃 租 届 无 有 搓 公 自 步 
_so% 人 景 大 旷 车 1 交 入 行 
户 让 下 训 家 辆 出 下 地 由 
比 上 例 达 庭 车 行 行 铁 出 行 
-100% 一 例 - 一 山 保 一 一 比 - 一 家 1 上 出 行 比 
有 例 诞 例 例 行 例 

_150% 量 比 比例 

| 0 | 例 0 0 例 
ee -00 -13% -5% 0% 








5-53 ”各 分 量 对 总 量 的 占 比 


可 见 ， 对 于 给 定 区 域 住户 数 和 上 班 人 数 的 情况 下 ， 家 姓 结 构 特征 与 私家 车 保 
有 特征 对 于 总 量 的 影响 最 大 , 而 区 域内 上 班 人 口 的 通勤 特征 对 总 量 的 有 影响 并 不 大 。 
该 结果 可 能 受 区 域内 统计 的 上 班 人 数 与 住户 数目 之 则 的 数量 差异 有 影响， 也 可 能 受 
到 相关 系数 的 影响 (地 铁 公 区 出 行 比 例 最 大 , 但 是 相关 系数 的 值 很 小 )。 正 相关 占 
比较 大 的 变量 按照 占 比 大 小 排列 分 别 是 : 有 一 辆 车 的 家 性 比例 、 无 车 家 几 比 例 、1 
人 户 比 例 和 租户 比例 ， 而 负 相 关 占 比较 大 的 变量 按照 占 比 大 小 排列 分 别 是 : 户 均 
汽车 保有 量 和 有 护 家 性 比例 。 

需要 注意 的 是 ， 访 计算 实例 因为 其 中 涉及 的 变量 数值 的 改变 会 有 改动 ， 更 精 
确 的 计算 需要 获取 更 小 范围 的 区 域 数 据 。 

4. 处 理 结果 对 比 

根据 前 述 的 两 种 方法 ， 答 试 从 两 种 角度 对 北京 市 的 分 时 租赁 市 场 规模 进行 
人 

第 一 种 估计 是 定性 常 选 ， 根 据 一 定 的 原则 将 北京 分 成 一 个 个 小 区 域 ， 将 符合 
要 求 的 区 域 选 出 来 , 再 针对 该 区 域 的 大 民 和 工作 人 口 进行 统计 得 出 总 的 需求 人 数 ， 
结合 市 场 渗透 率 的 概念 策 选 出 潜在 的 需求 人 数 ， 再 结合 人 车 比 得 出 潜在 的 车 辆 数 
目 。 这 种 估计 方法 比较 和 直观， 人 徐 单 易 行 ， 但 缺点 是 需要 进行 大 量 的 数据 调研 ， 区 
域 划 分 得 越 小 ， 调 研 和 统计 的 工作 难度 会 更 大 。 其 中 一 些 数 据 的 准确 性 也 有 答 评 
佑 ， 例 如 区 域内 拥有 一 辆 车 的 家 姓 的 比例 等 。 
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第 二 种 估计 是 定量 建 模 分 析 ， 将 能 够 体现 区 域内 分 时 租赁 发 展 规 模 的 变量 
《例如 每 平方 千 米 的 分 时 租赁 车 辆 数目 、 站 点 用 户 活 跃 度 等 ) 作为 因 变量 ， 然 
后 将 站 点 所 在 区 域内 居民 的 家 庭 组 成 、 汽 车 保有 情况 、 区 域 的 地 理 结 构 、 居 民 
和 上 班 族 的 出 行 模式 等 作为 多 元 自 变 量 ， 基 于 大 量 的 调研 与 统计 得 到 的 数据 ， 
建立 因 变 量 和 多 元 目 变 量 之 间 的 数学 模型 ， 在 统计 学 上 满足 一 定 的 置信 和 度 之 
后 ， 用 这 个 模型 去 预测 在 新 的 区 域 设置 站 点 后 周边 的 需求 。 这 种 估计 方法 对 于 
前 期 调研 工作 量 的 要 求 更 大 ， 且 对 于 数学 模型 的 处 理 和 建 模 效果 的 评估 也 有 和 较 
高 的 要 求 。 

第 一 种 估计 找到 了 1181 万 总和 需求 人 数 〈 作 为 对 比 ， 截 至 2016 年 5 月， 北京 
市 驾驶 员 数 为 1012 万 人 )， 乘 以 3% 一 10% 的 市 场 渗 透 率 后 ， 我 们 认为 ， 如 果 将 
2015 年 作为 新 能 源 汽 车 元 年 ， 也 是 分 时 租赁 的 初始 年 ， 则 在 未 来 发 展 初期 阶段 会 
有 35 一 118 万 的 目标 用 户 ， 按 照 一 个 较为 平稳 的 发 展 态势 来 看 (如 图 5-48 中 的 虚 
线 所 示 )， 则 需要 1.22 一 2.15 万 辆 分 时 租赁 车 辆 。 

第 二 种 估计 直接 找到 了 118 万 的 目标 用 户 ， 因 为 采用 的 相关 系数 是 美国 2004 
年 调研 得 到 的 ， 而 当时 美国 正 处 于 发 展 初 期 ， 因 此 有 理由 认为 118 万 人 的 需求 也 
是 比较 符合 中 国 当 前 的 发 展 阶 段 的 。 结 合 人 车 比 信 息 ， 估 计 出 分 时 租赁 的 车 辆 需 
求 为 2.1$ 一 4.07 万 辆 。 


5.4.2 ”对 城市 交通 运行 的 影响 分 析 


1. 交通 拥堵 影响 分 析 

(1) 应 用 背景 

新 能 源 汽车 的 快速 发 展 在 带动 我 国 经 济 、 降 低 环 境 污 染 、 落 实 节能 减 排 的 同 
时 ， 也 极 可 能 会 市 来 机 动 化 出 行 需求 的 进一步 增长 。 因 此 在 现 有 机 动 化 水 平 的 基 
础 上 ， 如 何在 促进 新 能 源 汽车 的 发 展 的 同时 ， 不 对 或 少 对 交通 产生 影响 ， 是 需要 
讨论 的 课题 。 

(2) 处 理 流程 

上 自然 需求 是 车 辆 以 自由 流速 度 完 成 行程 所 需 的 时 间 ， 单 位 为 nh， 能 够 较为 真 
实地 反映 理想 交通 条 件 下 的 交通 需求 。 剩 余 需 求 为 车 辆 在 当前 时 刻 会 完成 的 目 然 
需求 ， 单 位 为 h。 

为 研究 全 天 各 时 上 段 内 产生 的 出 行 目 然 需 求 变 化 情况 ， 分 别 做 新 能 源 汽车 与 传 
统 燃 油 汽 车 的 出 行 目 然 需求 与 出 发 时 间 的 联合 概率 分 布 岁 ， 如 图 5-54 和 图 5-55 
所 示 。 首 先 求 出 每 个 行程 的 目 然 需 求 ， 再 以 Smin 为 时 间 间 隔 ， 统 计 各 个 时 间 间 陋 
内 出 发 的 行程 数 。 联 合 分 布 图 中 x 轴 为 出 发 时 间 ，?” 轴 为 目 然 需 求 大 小 ，z 轴 为 具 
有 相同 出 发 时 间 和 上 自然 需求 的 行程 数量 。 
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口 








24:00 






















8:00 一 20 i 

12:00 16:00 多、 os 自然 需求 /min 
时 . 20:00 

出 发 时 间 24:00 30 


图 5-55 ”新 能 源 汽车 出 行 目 然 需求 与 出 友 时 间 的 联合 分 布 概 率 

















需求 包括 需求 特征 和 需求 规模 两 方面 ， 新 能 源 汽车 作为 一 种 具有 特殊 需求 特 
征 的 汽车 ， 其 对 拥堵 的 影响 由 其 需求 特征 和 发 展 规模 共 同 决 定 ， 以 各 自 规模 为 权 
值 ， 将 燃油 车 和 新 能 源 车 的 需求 特征 进行 加 权 求 和 ， 可 获得 路 网 的 总 需求 ， 如 式 
(5-41)〉 所 示 。 


W = XY + X,Y (5-41) 





式 中 ， 歼 为 路 网 总 需求 ; Xi 为 新 能 源 需 求 特征 ，7 为 新 能 源 车 需求 规模 ; 有 % 为 新 
能 源 需求 特征 ， 允 为 新 能 源 车 需求 规模 。 其 中 ， 规 模 为 保有 量 和 出 车 率 的 乘积 ; 
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需求 特征 为 出 行 自然 需求 与 出 发 时 间 的 联合 概率 分 布 。 

路 网 需求 大 意味 着 在 途 车 辆 数 多 。 在 途 车 辆 数 的 增加 降低 了 路 网 运行 速度 ， 
路 网 运行 速度 降低 使 得 行程 延误 增加 ， 行 程 延误 增加 又 增加 了 车 辆 同时 在 途 的 可 
能 性 ， 在 途 车 辆 数 增加 进一步 降低 路 网 速度 。 为 推算 交通 拥堵 情况 ， 获 取 路 网 均 
速 ， 根 据 求 得 的 总 需求 ， 建 立 需求 与 路 网 均 速 的 关系 。 

建立 需求 对 路 网 速度 的 系统 仿真 模型 ， 如 图 5-56 所 示 。 需 求 作 为 外 部 输入 ， 
具有 进入 路 网 的 空间 、 时 间 和 行程 距离 等 特征 。 为 了 归 一 化 道路 条 件 对 需求 的 影 
响 ， 以 完成 行程 所 需 的 时 间 wu 代替 行程 距离 作为 需求 测度 ， 即 完成 行程 所 需 对 路 
网 占用 的 最 少时 间 ， 与 行程 出 发 时 间 一 起 构造 需求 的 二 维 联合 分 布 P(u,i) 作为 系 
统 输入 ， 其 中 i 为 出 发 时 间 。 在 系统 中， 系统 答 入 为 出 行 需求 的 二 维 联合 分 布 
PA(u,i) ， 系 统 输出 为 随时 间 变化 的 路 网 均 速 vtj)，B 为 需求 管理 策略 。 系 统 F 由 多 
个 内 部 要 素 组 成 ， 包 括 实际 需求 分 布 P0wi)、 同 时 在 途 车 辆 数 x(j)、 在 途 车 辆 数 与 
路 网 速度 的 函数 hy)、 剩 余 需 求 分 布 Blu,i) 等 。 各 要 素 之 间 互 相 影响 ， 系 统 递归 
运行 ， 系 统 参数 由 实际 路 网 运行 数据 标定 。 

其 中 ， 函 数 hy)， 经 对 比 ， 指 数 函 数 拟 合 效果 比较 好 ， 即 





























h(x)=ae “+c (5—42) 
Pli7) r(i) [70 | VCD) 

四 () 到 

Ly APAL “路 网 速度 











Pli) 
| Tf 





Pl(u, i—1) Plu, 站 

















图 5-56 需求 管理 系统 仿真 结构 图 


(3) 评估 实例 

为 评估 新 能 源 汽车 发 展 规模 对 城市 交通 运行 的 影响 ， 可 进行 不 同 量 级 的 新 能 
源 汽 车 发 展 规模 对 交通 拥 培 影 啊 的 评估 ， 以 及 增加 同 量 级 汽油 车 对 交通 拥堵 影 啊 
的 比较 。 

利用 北京 市 2017 年 某 周 内 5 个 工作 日 路 网 数据 ， 在 现 有 汽车 保有 量 基 础 
上 ， 分 别 单独 增加 10 万 、30 万 、50 万 的 新 能 源 汽车 和 传统 燃油 汽车 ,仿真 路 
网 均 速 在 高 峰 时 段 ( 早 07:00 一 09:00， 晚 17:00 一 19:00) 和 全 天 (06:00 一 22:00) 
的 变化 ， 其 中 对 出 车 率 和 样本 比例 均 作 了 归 一 化 处 理 ， 分 别 单 独 对 每 天 计算 结果 ， 
然后 多 天 求 均 值 ， 结 果 见 表 5-6。 由 表 可 看 出 ， 同 样 增 量 的 新 能 源 汽车 对 拥堵 的 
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影响 显著 大 于 传统 燃油 汽车 ， 对 全 天 均 速 影响 大 于 对 高 峰 时 段 均 速 影 响 ， 对 晚 高 
峰 的 影 啊 比 对 早 高 峰 更 明 旺 。 


表 S$-6 新 能 源 汽车 与 传统 燃油 汽车 保有 量 增加 对 路 网 均 速 影 响 对 比 
(单位 : km/h) 


束 新 能 源 新 能 源 燃油 车 
EZ 





变化 幅度 —1.97% —1.51% —4.33% —4.33% —9.05% —6.89% 
全 天 DT 27.13 27.44 25.92 26.81 24.82 0622 
—2.31% —1.19% —3.45% —3.45% —10.63% —5.58% 


为 充分 评估 新 能 源 汽车 发 展 规模 及 政策 对 城市 交通 运行 的 影响 ， 还 可 进行 不 
同 测算 情景 下 的 估计 ， 例 如 : 估计 对 新 能 源 汽 车 取消 不 限行 政策 后 ， 不 同 发 展 规 
模 新 能 源 汽 车 对 城市 交通 拥堵 的 影响 。 通 过 上 述 方法 分 析 最 后 可 得 到 以 下 结论 : 

新 能 源 汽车 低 成 本 高 强度 的 使 用 导致 其 对 拥 墙 的 影响 显著 大 于 传统 燃油 汽 
车 ， 对 非 高 峰 时 段 影响 大 于 高 峰 时 段 。 空 间 资 源 是 城市 交通 的 约束 性 条 件 ， 新 能 
源 汽车 和 传统 燃油 汽车 对 道路 资源 的 利用 效率 都 不 高 ， 制 定 发 展 策 略 需 要 利 阁 兼 
顾 。 此 外 ， 由 于 充电 时 间 远 大 于 加 油 时 间 ， 供 需 矛 盾 会 导致 充电 站 附近 形成 局 部 
拥堵 ， 充 电站 规模 及 分 布 特征 也 是 影响 路 况 的 重要 原因 。 

2. 节能 减 排 效益 分 析 

为 评估 新 能 源 汽车 在 私家 车 领域 推广 的 效果 , 需要 分 析 车 辆 实际 的 行驶 工 况 ， 
并 与 传统 汽油 车 进行 对 比分 析 。 

基于 实际 运行 工 况 的 新 能 源 汽车 节能 减 排 效 果 评 佑 主要 有 以 下 几 个 工作 
内 容 : 

(1) 确定 影响 车 辆 能 耗 、 排 放 的 关键 影响 参数 

通过 测试 发 现 ， 影 响 车 辆 能 耗 排 放 的 关键 参数 主要 有 能 源 类 型 、 车 龄 、 速 度 、 
品牌 型 号 等 。 影 响 排 放 的 关键 参数 还 有 排放 标准 。 

Q) 车 用 能 源 类 型 简单 划分 为 传统 汽油 车 和 新 能 源 汽车 。 车辆 能 源 类 型 与 能 源 
消耗 总 量 有 直接 相关 的 关系 ， 同 时 ， 车 辆 燃烧 不 同 的 能 源 产生 的 污染 物 的 量 也 不 
同 ， 因 此 能 源 类 型 是 能 耗 排 放 测 算 的 关键 指标 之 一 。 

@ 机 动车 辆 车 龄 与 能 耗 排放 呈现 正 相 关 关 系 , 随 着 车 龄 的 增加 ,车 辆 能 耗 排 
放 也 会 增加 ， 因 此 车 龄 作为 能 耗 排 放 测 算 的 关键 指标 之 一 。 


变化 幅度 
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(3) 从 大 量 的 测试 数据 及 现 ， 驾 驶 员 的 驾驶 行为 直接 影响 了 车辆 的 能 耗 排 放 。 
而 区 驶 员 的 驾驶 行为 主要 体现 在 车 辆 的 速度 上 。 其 次 ， 和 车辆 行驶 工 况 也 直接 影 啊 
能 耗 排放 ， 例 如 加 速 和 减速 的 过 多 出 现 ， 仿 速 时 间 加 长 ， 都 二 接 导 致 能 耗 排 放 增 
加 。 因 此 速度 和 行驶 工 况 ， 痢 应 作为 能 耗 排放 测算 的 关键 指标 。 

4) 车 辆 品牌 型 写 因 其 友 动 机 的 效率 不 同 , 导致 日 公里 油耗 和 排放 有 一 定 的 差 
寞 ， 因 此 品牌 型 写 也 应 作为 能 耗 排 放 测 算 的 关键 指标 之 一 。 

3 排放 标准 是 直接 影响 车 辆 排放 的 指标 ， 也 应 作为 排放 测算 的 关键 参数 











he 
(2) 通过 大 数据 提取 城市 交通 运行 工 况 

结合 实时 监测 数据 进行 关键 参数 的 提取 能 耗 、 排 放 合算 的 关键 参 数 ， 需 要 提 
取 的 关键 参数 有 : 

G 行驶 里 程 。 在 实时 监测 数据 中 ， 涉 及 里 程 的 计算 有 三 种 : 累计 里 程 计算 、 
速度 计算 、 经 纬度 计算 。 按 照 要 求 ， 新 能 源 汽 车 实时 监测 数据 采集 的 周期 为 30s。 
采用 速度 积分 计算 的 方法 ， 数 据 准 确 性 较 甜 ， 且 极 易 受到 数据 丢 包 的 影响 。 因 此 
考虑 选用 累计 里 程 计算 或 经 纬度 计算 ,经 纬度 计算 法 主要 将 定位 落 在 GIS 图 层 上 ， 
与 道路 LINK 匹配 ， 将 行程 途径 的 LINK 距离 进行 加 和 统计 。 累 计 里 程 则 为 行程 
自 末 点 的 系 计 行 程 相 减 求 取 。 

系 计 里 程 主要 从 车 辆 直接 传输 得 到 ， 不 存在 数据 丢 包 风险 ， 经 纬度 计算 受 丢 
包 影 响 相 对 较 小 。 经 过 三 种 计算 方法 对 比 可 看 出 ， 罕 计 里 程 和 经 纬度 计算 里 程 的 
误差 较 小 ， 所 以 选取 累计 里 程 法 作为 行驶 里 程 核算 的 方法 。 

@ VSP。 机 动车 比 功 率 (Vehicle Specific Power，VSP) 定义 为 发 动机 机 每 移 
动 1t 质量 《包括 目 重 ) 所 输出 的 功率 ， 单 位 为 kW/t。VSP 变量 可 以 将 车 辆 的 瞬 
时 运动 状态 与 油耗 和 排放 联系 起 来 ， 且 相对 于 速度 和 加 速度 ，VSP 与 油耗 和 排放 
的 关系 更 为 密切 。 

随 着 基于 VSP 变量 的 建 模 方法 的 深入 研究 和 应 用 ,目前 已 形成 了 相对 较为 
成 熟 的 VSP 计算 方法 。VSP 可 由 机 动车 逐 秒 的 速度 、 加 速度 数据 推算 得 到 。 
本 小 节 采 用 美国 环保 署 〈EPA) 开发 的 MOVES (Motor Vehicle Emissions 
Simulator) 模型 中 的 VSP 理论 作为 汽车 能 耗 与 兢 排 放 因 了 于 的 构建 基础 。VSP 
计算 公式 为 









































Av 十 Bv, 十 Cy + my,a, 
站 
式 中 ，v 为 1 时 刻 速度 ， 单 位 为 m/s; a 为 加 速度 ， 单 位 为 m/s*; m 为 质量 ， 单 位 
为 t 4 为 滚动 阻力 ， 单 位 为 KW。sm; B 为 旋转 阻力 ， 单 位 为 kW。s2m2; C 为 
空气 阻力 ， 单 位 为 kW。s-m ;三 为 换算 系数 。 人 参数 取 值 见 表 $-7。 


FSP (5-43 ) 
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出 租车 、 小 客车 


公交 单机 








公交 双 层 / 贸 接 


表 S$-7 VSP 公式 的 参数 取 值 表 


LE 
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1.478 8 


在 VSP 理论 中 ,需要 将 获得 的 VSP 进行 VSP 区 间 划 分 ,对 其 按照 不 同 的 VSP 





区 间 〈 将 此 区 间 单 元 定义 为 Bin) 进行 平均 油耗 及 排放 率 计 算 。 划 分 VSP 区 间 应 
注意 两 个 原则 : 一 是 不 同 区 间 产 生 的 平均 油耗 有 明显 区 别 ， 二 是 单个 区 间 的 平均 
油耗 不 足以 代表 车 辆 行驶 过 程 中 的 总 油耗 。 也 就 是 说 ， 划 分 区 间 应 包含 车 辆 的 各 
个 行驶 工 况 (加速 、 减 速 、 仍 速 、 制 动 )。 本 节 中 采用 的 MOVES 模型 中 VSP Bin 


的 划分 见 表 5-8。 


VSP Bin 











表 5-8 VSP Bin 划分 表 





车 辆 运行 工 况 


ED 
羡 


宗 
人; 


| | .| | | a | | | 
本 | 三 | 三 | 了 王 | 了 王 | 王 | 瑟 | 了 王 | 瑟 | 王 


条 
| 
b= 
| 


Hl 


洁 | 沪 | 党 | 入 | 党 | 辽 | 沪 | 这 | 辽 | 沪 | 邓 


钳 








VSP 范围 / (kWVt) 


VSP 二 一 2 
-2 和 VSP<<0 
0VSP<I1 
1 三 VSP=4 
4 和 VSP<<7 
7 和 VSP<<10 
10 硅 VSP=13 
13 夺 VSP=16 
16 夺 VSP=19 
19VSP=23 
23 夺 VSP=28 
28 硅 VSP=33 
33 三 VSP=39 


VSP 志 39 


VSP 分 布 的 形态 在 不 同 速度 区 间 存 在 较 大 差异 ， 主 要 表现 在 : 随 着 平均 速度 
的 增加 ，VSP 的 峰值 逐渐 降低 ， 且 向 高 VSP Bin 移动 ;平均 速度 较 低 时 ，VSP 分 布 
比较 集中 ， 平 均 速 度 高 时 ，VSP 分 布 更 分 散 。 故 建立 VSP 分 布 前 ， 需 要 根据 车 辆 行 














驶 速度 范围 进行 速度 区 间 进 行 划分 ， 速 度 区 间 划 分 间隔 根据 实际 情况 选取 。 图 5-57 
所 示 为 对 茶 车 型 进行 车 速 区 间 划 分 后 ， 不 同 平 均 速 度 下 的 VSP 分 布 特性 图 。 


209 


新 能 源 汽车 






































大 数据 分 析 与 应 用 技术 
国 50~60km/h 国 60~~70km/h 
40% 20% 
徊 30% hn 15% 
20% 本 10% 
10% | | 2 5% | | | 
0 | | Tpit | | | | | | | 0% , ! . | ! | 二 | | 
0% 0123 4567 891011121314 O123 45367 891011121314 
VSP Bm VSP Bin 


5-57 某 车 型 条 两 个 车 速 区 间 下 的 VSP 分 布 图 


(3) 各 平均 速度 下 油耗 和 排放 因子 的 计算 。 基 于 建立 的 各 速度 区 间 的 VSP 分 
布 ， 各 平均 速度 下 油耗 和 排放 因子 的 计算 方法 为 
EF, =(》ERXBz)1VX3600 (5—44) 


式 中 ， ER 为 第 平均 速度 区 间 的 油耗 和 排放 因子 ， 单 位 为 gkm; ER; 是 第 i 个 
VSP Bin 的 油耗 率 和 排放 紊 ， 可 基于 PEMS 车 载 尾 气 设 备 收集 的 车 辆 油耗 和 尾气 
排放 数据 进行 统计 计算 ， 单位 为 g/s;，Bin, 是 第 平均 速度 区 间 第 i 个 VSP Bin 的 
分 布 值 ; v 是 第 个 平均 速度 区 间 的 中 值 ， 单 位 为 km/h。 

(3) 搭建 新 能 源 车 辆 减 排 测算 模型 

在 排放 预测 中 ， 主 要 考虑 速度 对 排放 因子 的 有 影响， 预测 计算 方法 为 


E=2,E,= SY WSe, (5-45) 








其 中 ，E| 为 路 网 消耗 总 排放 ， 单 位 为 t; 已, 为 不 同 污染 物种 类 如 CO、NO,、PM 的 
排放 ; n 为 车 辆 类 型 数 ，i 为 第 i 种 车 辆 ;WW 为 第 i 种 车 辆 的 车 辆 保有 量 ; 为 第 种 
车 辆 的 行驶 里 程 ， 单 位 为 km; ey 为 速度 为 vj; 下 的 排放 因子 ， 单 位 为 g/100km。 

根据 关键 参数 的 提取 和 分 析 初 步 建 并 测算 模 型 ,核算 车 辆 减 排 的 情况 ,如 图 5-58 
所 示 。 








we | | 
路 网 平均 速度 20.3 km/h 22 km/h 
日 均 行驶 里 程 51.1 km 42 km 














5-58 ”新 能 源 汽车 推广 减 排 效果 计算 卡 
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此 计算 卡 利 用 上 述 的 计算 方法 ， 以 推广 规模 和 路 网 平均 速度 作为 目 变 量 ， 
减 排 量 作为 因 变 量 ， 计 算 由 推广 新 能 源 汽 车 融 来 的 减 排 效 末 。 因 为 新 能 源 汽 
车 运行 过 程 中 零 排 议 ( 纯 电动 汽车 )， 所 以 新 能 源 汽 车 减 排 效果 即 为 汽油 车 的 
排放 。 
利用 此 模型 基于 上 市 测算 情景 进行 计算 ， 最 终 得 到 的 结 来 见 表 5-9。 


























表 5-9 新 能 源 汽 车 推广 的 排放 变化 情况 表 


a 增加 30 万 加 增加 50 万 加 
i 新 能 源 汽油 新 能 源 汽油 


从 表 5-9 可 以 看 出 ， 增 加 同等 数量 的 新 能 源 汽 车 对 减 排 的 影响 明 旺 高 于 
传统 燃油 车 。 随 着 机 动车 数量 的 不 断 增加 ， 排 放 总 量 不 断 增加 ， 且 增幅 不 断 
加 大 。 

(4) 搭建 新 能 源 车 辆 市 能 测算 模型 

在 能 耗 预 测 中 ， 主 要 考虑 速度 对 能 耗 因 子 的 影响 ， 预 测 计算 方法 如 下 : 


DR 六 Se (5-46 ) 


其 中 ，, 为 路 网 消耗 总 能 耗 ，L; 7 为 车 辆 类 型 数 ，i 为 第 i 种 车 辆 ;Vj 为 第 i 
种 车 辆 的 车 辆 保有 量 ; 5 为 第 种 车 辆 的 行驶 里 程 ， 单 位 为 km; ev 为 速度 为 zj 下 的 
能 耗 因子 ， 单 位 为 L/100km。 

根据 关键 参数 的 提取 和 分 析 初 步 建立 测算 模型 , 详 见 图 5-59 用 以 核算 车 辆 能 
耗 的 情况 。 

此 计算 卡 利 用 上 述 计算 方法 ， 以 推广 规模 和 路 网 平均 速度 作为 目 变 量 ， 以 节 
油 量 和 市 能 量 作 为 因 变 量 ， 计 算 由 推广 新 能 源 汽车 带 来 的 综合 市 油 量 和 节能 量 。 

利用 此 模型 基于 上 节 测 算 情 景 并 代入 推广 规模 及 路 网 均 速 估 值 进行 计算 ， 得 
到 的 结果 见 表 5-10。 
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推广 规模 辆 百 公里 油耗 20.3 | LV100km 


路 网 平均 速度 km/h 路 网 平均 速度 22 km/h 


百 公里 能 耗 . kWh/100km 500 42 km 














日 均 行 驶 里 程 51.1 km 


va | |. 








图 5-59 ”新 能 源 汽车 推广 节能 效果 计算 卡 


表 5-10 新 能 源 汽车 推广 的 能 耗 变 化 ' 





表 况 表 


据 表 5-10 可 以 看 出 ,增加 同等 数量 的 新 能 源 汽车 对 油耗 的 影响 明显 低 于 传统 
汽油 车 ， 但 对 能 耗 的 影响 明显 局 于 传统 汽油 车 。 且 随 痢 机 动车 数量 的 不 断 增加 ， 
油耗 总 量 增 加 的 幅度 不 断 增 大 。 
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大 数据 分 析 在 未 来 交通 出 行 
中 的 应 用 及 发 展 前 景 


在 未 来 的 交通 出 行 中 ， 汽 车 仍 将 是 人 们 出 行 主要 的 交通 工具 ， 但 “互联 网 ”” 
的 思想 将 重新 定义 现 有 汽车 行业 的 模式 ， 用 第 三 次 互联 网 章 命 带 来 的 特征 一 一 全 
新 、 高 效 和 及 时 的 服务 殖 代 原来 低 效 的 组 织 管理 形式 和 资源 配置 方式 ， 汽 车 产品 
和 服务 的 提供 者 、 使 用 者 的 角色 将 被 互联 网 用 户 重 新 定义 。 汽 车 行业 将 发 生 巨大 
的 变化 ， 而 大 数据 技术 则 是 推动 这 一 变化 的 主要 力量 。 

在 这 样 全 新 的 浪 漳 中 ， 数 据 将 起 到 和 草 要 的 作用 。 数 据 将 打造 未 来 的 终极 移动 
空间 , 而 不 仅仅 是 实体 的 汽车 新 材料 或 模块 化 的 汽车 等 部 件 ,。 要 想 让 汽车 变 得 “ 耳 
陪 目 明 ”， 需 要 数据 从 中 传递 信息 ， 获 取 联 系 。 大 数据 的 精准 定位 和 实时 分 析 功 能 
成 为 移动 互联 时 代 的 利 左 ， 而 大 数据 的 收集 、 存 放 、 传 输 ， 离 个 开 云 储存 。 大 数 
据 、 云 储存 保证 汽车 通过 车 载 乔 能 设备 顺畅 、 及 时 地 连接 到 互联 网 ， 整 个 车 联网 
生态 环境 将 成 为 汽车 这 一 终极 移动 空间 的 重要 保障 。 软 便 件 技术 就 像 车 联网 的 目 
来 水 龙头 ， 将 整个 系统 的 信息 传递 到 每 一 辆 车 。 现 如 今 ， 用 户 在 汽车 内 打开 手机 
APP， 束 能 够 获取 来 日 移动 互联 网 的 源源 不 断 的 信息 。 而 在 将 来 ， 这 些 源源 不 断 
的 信息 将 和 和 车 相连 ， 通 过 车 载 中 央 处 理 画 进行 计算 ， 其 结 采 直接 反馈 至 车 辆 的 运 
行 。 在 必 一 方面 ， 多 样 、 多 变 、 可 定制 的 内 饰 外 观 设计 也 会 基于 强大 的 数据 库 而 
建立 ， 了 最 终 推 动 未 来 汽车 级 大 个 性 化 、 千 能 化 的 方 同 及 展 。 






































术 来 的 交通 出 行 


6.1.1 未 来 的 汽车 出 行 


在 未 来 的 交通 出 行 中 ， 汽 车 仍然 是 很 重要 的 组 成 部 分 。 但 未 来 的 汽车 ， 不 仅 
征 实 体 的 钢板 和 零件 ,而 是 一 个 功能 十 分 齐全 、 重 能 化 程度 极 高 的 个 人 移动 空间 。 
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未 来 汽车 是 一 个 数据 中 心 , 可 以 接收 来 自 周 围 环境 以 及 相关 服务 机 构 的 各 种 信息 ， 
为 乘 车 人 的 出 行 提 供 更 多 便利 。 汽 车 可 以 实时 接收 天 气 和 路 况 信 息 ， 为 乘 车 人 提 
供 最 佳 的 穿 衣 选择 和 出 行路 线 选择 ; 汽车 可 以 接收 各 种 新 闻 信 息 ， 并 根据 乘客 的 
喜好 为 乘客 提供 对 应 的 新 闻 播 报 服务 ;汽车 还 可 以 根据 乘 车 人 之 前 输入 的 日 程 规 
划 ， 上 自动 进行 日 程 提醒 ;汽车 也 可 以 同 数 据 平台 传输 汽车 的 各 项 实时 运行 数据 ， 
使 数据 平台 对 汽车 实时 监控 。 当 汽车 的 运行 状况 出 现 问 题 时 ， 数 据 平台 可 以 通过 
传输 数据 的 异 党 及 时 检测 出 汽车 可 能 发 生 的 故障 并 对 车 驶 员 进 行 警 示 ， 减 少 事故 
的 发 生 。 同 时 ， 数 据 平 台 还 可 以 通过 对 全 市 或 者 全 区 的 汽车 整体 运行 状况 进行 交 
通 拥堵 的 预测 ， 并 提前 采取 措施 进行 疏导 ， 减 少 可 能 发 生 的 拥堵 。 

同时 ， 未 来 汽车 还 可 以 实现 上 自动 各 怠 ， 这 样 束 可 以 在 乘 车 人 不 适合 开车 的 情 
况 下 代 符 其 轨 驶 汽车 ， 或 者 当 汽 车 主动 测量 到 按照 现在 的 模式 继续 行 驱 会 产生 安 
全 问题 时 ， 接 管 汽车 吉 驶 ， 来 保证 驾 乘 人 员 的 安全 ， 同 时 还 可 以 实现 目 动 泊 车 等 
功能 。 汽 车 的 上 自动 骤 驶 也 需要 大 数据 的 文 持 。 例 如 ， 汽 车 可 以 接收 附近 路 网 的 红 
绿灯 情况 ， 从 而 相应 地 调整 车 速 ， 尺 量 减 少 汽 车 通过 每 个 有 红绿灯 路 口 时 的 等 答 
时 间 。 汽 车 可 以 接收 附近 路 网 的 拥堵 信息 进而 在 前 方 道 路 拥堵 时 提前 上 自动 选择 其 
他 道路 绕 行 ， 还 可 以 接收 附近 车 辆 的 信息 ， 实 现 对 其 他 车 辆 的 避让 。 汽 车 之 则 的 
言明 交互 可 以 解决 当前 城市 中 车 流量 较 大 的 时 候 经 常会 出 现 的 “幽灵 墙 车 ”问题 。 
“幽灵 墙 车 ”是 指 在 车 流量 较 大 时 ， 因 为 车 与 车 之 间 的 协调 不 够 ,车 流 中 只 要 有 一 
辆 车 没有 保持 好 车 速 和 车 距 ， 束 会 造成 连锁 反应 式 的 制 动 。 但 当 建 立 起 车 辆 和 局 
围 环 境 的 联系 后 ， 每 辆 车 都 能 实时 监控 周边 车 的 车 速 、 车 距 、 轨 迹 等， 在 车 联网 
这 个 总 指挥 下 保持 好 车 速 和 车 距 。 这 样 ,“ 幽 灵 堵 车 ”将 不 复 存 在 。 

未 来 汽车 功能 会 更 加 丰富 ， 也 将 更 具 个 性 化 。 大 量 私 人 购买 的 汽车 将 会 实 
现 定 制 化， 当今 车 里 的 制造 都 是 利用 模具 进行 生产 ， 因 此 必须 要 进行 同一 种 车 
号 的 大 量 制造 才能 降低 成 本 。 在 未 来 ， 车 映 的 制造 技术 将 会 更 加 和 柔性 化 ，3D 
打印 等 技术 的 发 展 使 车 喘 可 以 不 利用 模具 来 进行 制造 ,这 样 束 为 小 批量 个 性 化 
制造 提供 了 条 件 。 未 来 和 车身 的 外 形 将 会 根据 车 主 的 喜好 进行 定制 ， 同 时 仪表 盘 
的 布置 也 可 以 根据 车 主 的 爱好 进行 改变 。 车主 还 可 以 选择 更 多 的 辅助 设备 来 使 
汽车 的 功能 更 加 丰富 。 线 控 撤 术 的 发 展 也 使 车 身 内 部 的 空间 更 大 ， 使 车 主 可 以 
有 更 舒适 的 驾驶 体验 。 

6.1.2 未 来 的 交通 网 络 

交通 网 络 是 一 个 区 域 发 展 程度 的 标志 之 一 。 高 速 公路 的 建设 ， 可 以 大 大 缩短 
两 个 区 域内 的 通勤 时 间 。 铁 路 的 建设 可 以 加 速 区 域内 的 货物 的 贸易 交流 ， 机 场 的 
建设 可 以 加 强 与 外 界 的 沟通 , 交通 网 络 的 建设 可 以 促进 区 域 的 发 展 。 在 过 去 的 100 
年 中 ， 人 全球 的 交通 网 络 建设 都 有 很 大 的 发 展 ， 使 人 们 出 行 更 加 省 时 ， 不 同 区 域 贷 
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物 的 贸易 更 加 方便 。 然 而 ， 如 今 交 通 网 络 仍然 使 用 着 传统 的 管理 方式 ， 随 着 交通 
压力 的 不 断 增加 ， 诸 如 交通 拥堵 等 许多 交通 问题 正在 变 得 越 来 越 严 重 。 人 解决 这 些 
交通 问题 ， 除 了 改善 交通 网 络 的 人 硬件 条 件 〈 加 宽 、 新 修道 路 等 )， 还 可 以 通过 大 数 
据 技 术 改 善 管理 方式 来 缓解 这 些 问题 。 

1. 大 数据 方便 个 人 出 行 

大 数据 将 给 未 来 的 交通 出 行 带 来 翻天 覆 地 的 变化 。 在 未 来 ， 交 通 出 行 领 域 的 
言 息 处 理 已 经 不 再 局 限于 车 、 船 、 轨 道 、 飞 机 等 各 领域 分 开 单独 进行 信息 处 理 ， 
而 是 通过 完善 的 空 天 地 一 体 化 信息 网 络 传递 各 种 环境 信息 、 交 通信 息 、 物 流 人 口 
流动 信息 等 ， 并 经 过 大 数据 平台 的 精确 计算 、 判 断 ， 来 选择 最 适合 人 们 出 行 的 路 
线 和 方式 。 例 如 : 乘坐 飞机 出 行 时 ， 在 去 机 场 的 路 上 ， 甚 至 在 出 发 之 前 ， 就 能 通 
过 空 天 地 一 体 化 信息 网 络 提 前 观测 好 大 气 环境 数据 ， 绪 合 未 来 的 降雨 概率 ， 以 及 
周边 区 域 道路 情况 等 数据 进行 大 数据 分 析 ， 规 划 最 省 时 的 出 行 线 路 和 航班 ， 大 大 
减少 因为 天 气 而 产生 的 旅途 延误 耽搁 。 

2. 大 数据 改善 交通 管理 

轨道 、 舱 舶 、 飞 机 等 交通 出 行 领域 有 大 量 的 数据 与 车 辆 出 行 县 县 相关 。 静 态 
数据 方面 ， 如 行政 区 划 、 城 镇 居民 点 、 资 源 分 布 、 环 保 、 水 系 等 基础 数据 ， 如 补 
贴 机 制 、 票 价 模式 、 班 次 运行 计划 、 各 项 运行 指标 等 标准 规章 数据 ;动态 数据 方 
面 ， 如 车 务 机 务 船 务 数据 、 交 通 工具 运行 数据 、 工 务 电 务 数据 等 专业 数据 ， 如 客 
流 数据 、 环 境 数据 、 安 全 数据 等 反映 一 定 社会 特征 的 数据 。 在 仔细 分 析 、 计 算 的 
情况 下 都 能 对 车 辆 的 交通 出 行进 行 指导 。 例 如 ， 在 将 来 ， 若 在 一 段 时 间 内 高 铁 站 
接收 到 大 量 的 客流 出 站 数据 ， 证 明 短 时 间 内 将 有 大 量 旅客 需要 从 轨道 交通 转 乘 其 
他 车 辆 交通 方式 ， 那 么 可 以 适当 增加 公交 班次 、 出 租车 调度 等 ， 来 缓解 出 站 交通 
压力 , 减少 等 待 时 间 ; 又 如 ， 机 场 收集 周边 汽车 、 轨 道 交 通车 辆 测 得 的 环境 湿度 、 
风速 等 数据 ， 可 以 迅速 计算 出 小 范围 区 域内 的 天 气 变 化 情况 ， 从 而 可 以 在 恶劣 天 
气 产生 变化 时 ， 及 时 、 灵 活 地 选择 起 飞 时 机 ， 减 少 行程 耽搁 。 









































未 来 交通 出 行 中 大 数据 的 分 析 导 应 用 





大 数据 的 技术 与 应 用 起 源 于 快速 及 展 的 互联 网 。 在 2000 年 前 后 ， 互 联网 页 面 
呈 灯 炸 式 增长 ， 谷 歌 首 先 建 立 了 世界 范围 的 主页 索引 库 ， 其 搜索 引擎 提供 的 精确 
搜索 服务 ， 方 便 了 用 户 使 用 互联 网 ， 黄 定 了 大 数据 的 技术 基础 。 大 数据 的 友 展 给 
世界 带 来 了 巨大 的 改变 ， 和 萤 握 着 数据 吏 营 握 痢 知识 ， 擎 握 痢 巨大 的 价值 。 

通俗 来 讲 ， 大 数据 分 析 束 是 将 原始 的 极 大 量 数据 进行 一 系列 的 算法 分 析 之 后 ， 
从 数据 中 挖掘 出 有 用 结论 的 过 程 。 交 通 出 行 大 数据 与 互联 网 大 数据 、 人 金融 大 数据 等 
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传统 大 数据 相 比 ， 具 有 其 独特 的 “个 性 ”。 首 先 ， 交 通 出 行 大 数据 的 特点 是 输入 的 持 
续 性 ， 即 在 分 析 阶 段 也 有 源源 不 断 的 新 数据 输入 ， 其 次 ， 交 通 出 行 大 数据 分 析 具 有 
反馈 的 即时 性 ， 不 能 像 传统 大 数据 分 析 那 样 可 以 将 数据 提取 出 来 ， 耗 时 几 个 月 其 至 
几 年 时 间 进 行 分 析 。 例 如 ， 汽 车 的 行驶 状况 关系 到 鸭 乘 人 员 的 安全 ， 而 且 像 路 况 信 
恩 、 实 时 导航 等 内 容 都 具有 很 强 的 时 效 性 ， 不 可 能 进行 儿 立 、 延 时 的 计算 分 析 。 

这 两 个 特 后 决定 了 交通 出 行 大 数据 分 析 必 定 需 要 从 助 云 拉 术 ， 未 来 对 数据 的 
存储 和 分 析 不 再 是 只 能 早 纯 地 在 祭 一 特定 的 中 央 处 理 占 进行 处 理 ， 相 反 ， 随 着 服 
务 硕 和 云 人 存储 技术 的 不 断 成 熟 ， 数 据 的 存储 和 分 析 将 是 随时 随地 的 。 而 现在 很 多 
公司 已 经 针对 目 映 的 数据 平台 ， 建 立 起 了 大 数据 实时 分 析 模 块 ， 实 现 了 实时 分 析 
功能 ， 这 些 平台 在 不 久 的 将 来 会 更 进一步 地 推广 和 深化 。 

那么 ， 通 过 大 数据 分 析出 来 的 结 素 ， 又 会 有 哪些 结论 和 指导 意见 呢 ? 会 给 我 
们 现 有 的 交通 出 行 模式 提出 哪些 建议 呢 ? 可 以 想象 ， 其 履 兰 面 将 是 出 人 意料 的 庞 
大 ， 包 括 汽 车 生产 、 销 售 、 人 售后， 交通 系统 的 调度 以 及 交通 设施 的 建设 等 。 还 可 
以 通过 数据 预 处 理 ， 识 别 出 每 个 客户 的 详细 信息 ， 采 集 客 户 的 网 上 行为 数据 ， 进 
行 全 网 客户 识别 。 比 如 通过 分 析 菏 一 区 车 车 主 的 行驶 路 线 和 和 旬 去 的 目的 地 ， 便 可 
以 得 出 这 秋千 车 主 的 普 过 爱好 ， 继 而 了 解 到 购买 这 秋千 的 主流 客户 群体 特征 ， 为 

一 步 彰 销 做 准备 。 下 面 就 介绍 交通 出 行 大 数据 分 析 的 几 个 未 来 应 用 设想 。 


6.2.1 未 来 汽车 行业 以 人 为 本 


1. 汽车 设计 制造 

传统 的 汽车 设计 制造 几乎 都 是 由 整 车 三 负责 进行 ， 当 然 ， 大 部 分 车 映 造 型 设 
计 工 作 外 包 给 了 设计 事务 所 。 消 费 者 在 其 中 的 参与 度 很 低 ， 大 部 分 车 型 只 能 在 购 
买 时 挑选 颜色 、 选 装配 件 ， 这 远 远 无 法 满足 个 性 化 要 求 越 来 越 高 的 社会 需求 。 如 
同 顶级 的 衣物 定制 品牌 的 意义 ， 汽 车 广 家 也 可 以 利用 大 数据 来 设计 更 加 贴 合 消费 
者 对 汽车 性 能 、 蜀 驶 体验 等 一 系列 要 求 的 汽车 。 

车 型 设计 将 不 再 局 限于 专家 的 思维 。 通 过 社交 网 站 上 展开 的 投票 ， 例 如 福特 
公司 开展 的 关于 新 车 型 选用 手动 行李 箱 还 是 自动 行李 箱 的 投票 , 就 是 很 好 的 例子 。 
这 样 的 举动 可 以 增加 消费 者 的 参与 感 ， 也 可 以 充分 了 解 消费 者 的 喜好 ， 让 工程 师 
对 设计 的 把 握 度 更 高 。 

2. 汽车 销售 

未 来 的 营销 也 可 以 做 到 对 各 种 特定 的 客户 群 精心 设计 ， 通 过 分 析 事 先 搜集 好 
的 大 数据 ， 各 个 汽车 相关 产业 链 企 业 可 以 准确 把 握 产 品 的 潜在 客户 ， 以 及 这 些 客 
户 的 习惯 爱好 。 除 了 客户 喜欢 的 汽车 特性 参数 〈 如 空间 、 动 力 等 )、 汽 车 外 形 、 汽 
车 品牌 等 ， 还 可 以 分 析出 客户 最 喜欢 的 营销 内 容 与 营销 手段 ， 把 相同 的 产品 “ 卖 ” 
出 不 同 的 风格 ， 实 现 所 有 的 营销 都 准确 围绕 消费 者 ， 精 准 营 销 ， 节 约 成 本 。 
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具体 方法 是 通过 过 去 各 种 车 型 或 者 品牌 的 买 家 数据 ， 设 定 一 些 指标 ， 例 如 年 
龄 、 家 庭 情况 、 收 入 等 ， 然 后 通过 大 量 的 数据 匹配 来 找 出 这 些 买 家 群体 的 特定 爱 
好 ， 在 新 车 推广 上 就 可 以 相应 地 侧重 于 拥有 相似 特点 的 客户 ， 并 且 在 之 后 的 车 型 
设计 上 也 可 以 做 与 之 相对 应 的 改进 。 例 如 对 同 为 豪华 品牌 的 路 虎 与 沃尔沃 的 买 家 
调查 ， 就 表现 出 了 非常 有 趣 的 结果 。 通 过 大 数据 研究 显示 ， 喜 欢 路 虎 的 买 家 中 高 
中 以 下 学 历 者 所 占 比例 相对 较 高 ， 而 沃尔沃 的 买 家 群体 中 硕士 及 以 上 学 历 者 占 比 
则 是 第 一 。 由 此 可 见 ， 同 样 是 在 高 收入 人 群 中 推广 ， 路 虎 和 沃尔沃 的 营销 策略 就 
要 有 所 不 同 了 ， 要 抓 住 自己 的 优势 。 在 将 来 ， 通 过 大 数据 分 析 还 能 知道 各 种 细 分 
人 和 群 对 于 汽车 的 颜色 、 品 牌 、 性 能 方面 的 独特 爱好 ， 使 得 销售 方面 的 策略 和 行动 
更 加 准确 积极 ， 既 减少 了 营销 成 本 ， 也 使 消费 者 更 容易 找到 心仪 的 车 辆 。 

3. 驾 乘 感受 

在 汽车 的 使 用 过 程 中 ， 消 费 者 始终 是 处 在 至 高 无 上 的 地 位 ， 未 来 的 汽车 就 像 
是 读 取 车 主 心 理 的 庞大 数据 库 ， 时 刻 为 车 主 进行 贴心 的 服务 。 例 如 ， 在 汽车 行驶 
过 程 中 ， 通 过 以 往 的 大 数据 分 析 ， 根 据 当前 的 环境 状况 和 区 乘 人 员 身 体 情况 ， 时 
刻 为 消费 者 提供 最 适合 的 车 内 环境 ， 包 括 音 乐 、 温 度 、 人 灯光 、 空 气质 量 等 。 

云端 数据 可 以 根据 每 一 位 消费 者 的 兴趣 爱好 和 驾驶 习惯 ,将 大 数据 直接 共享 
到 整个 汽车 行业 的 各 个 领域 ,为 消费 者 提供 可 定制 的 服务 。 汽 车 本 身 也 是 一 个 可 
以 收发 、 存 储 和 共享 数据 的 移动 终端 ， 在 人 们 驾驶 车 辆 的 同时 ， 可 以 通过 汽车 上 
网 收发 邮件 、 处 理事 务 或 参与 视频 会 议 等 ， 使 汽车 成 为 一 个 办 公 室 管家 。 

在 未 来 ， 汽 车 或 许 已 经 不 是 传统 的 交通 工具 ， 而 是 一 个 服务 机 器 人 ， 具 有 高 
度 的 人 工 智 能 化 。 这 个 机 器 人 能 随时 听从 主人 的 差 遗 ， 服 务 主 人 ， 也 能 协助 主人 
管理 各 种 事务 ， 甚 至 可 以 做 自我 检查 ， 自 主 预约 修 车 时 间 ， 以 及 自动 驾驶 前 往 维 
修 站 进行 维修 。 此 外 ， 在 物 联网 的 推动 下 ， 汽 车 和 周围 环境 中 的 各 种 电器 将 建立 
密切 的 联系 ， 共 同 为 消费 者 营造 一 个 舒适 、 便 捷 、 高 效 的 生活 氛围 。 

而 这 一 切 ， 首 先 要 充分 利用 获得 的 大 量 数据 ,利用 机 器 学 习 等 人 工 智 能 方法 ， 
使 汽车 具备 像 人 一 样 思考 的 能 

4. 售后 维修 保险 

想必 有 车 的 人 士 或 家 庭 一 定 对 到 4S 店 去 做 汽车 保养 和 维修 深 有 感触 。 一 般 修 
车 流程 是 先 检 查 ， 然 后 选择 修 车 方式 〈 或 换 或 修 )， 再 进行 修 车 处 理 。 这 个 过 程 充 
满 着 漫长 的 等 待 ， 许 多 车 主 往往 要 为 此 耗费 一 天 甚至 更 多 的 时 间 ， 汽 车 维修 店 本 
身 的 效率 也 较 低 下 。 此 外 ， 汽 车 维修 行业 还 有 一 些 诸如 维修 标准 不 统一 、 维 修 内 
容 不 透明 、 维 修 管理 技术 落后 等 诸多 问题 ， 也 在 制约 着 汽车 维修 行业 的 发 展 。 

而 在 未 来 ， 这 些 问 题 都 将 得 到 改善 。 汽 车 将 成 为 一 个 独立 的 数据 分 析 处 理 平 
台 ， 汽 车 对 于 自身 的 每 个 零 部 件 状况 都 了 如 指 掌 ， 结 合 过 往 经 验 数 据 和 当前 的 零 
件 状 况 ， 加 以 强大 的 数据 分 析 ， 每 一 辆 汽车 都 能 通过 车 载 计算 机 分 析出 何 时 需要 
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保养 何 种 零件 ， 并 评估 各 个 项 目 需求 。 这 些 需 求 将 会 第 一 时 间 发 送 给 消费 者 进行 
确认 ， 并 根据 消费 者 的 收入 、 习 惯 以 及 车 型 配置 ， 制 定 出 完美 的 维修 保养 计划 。 

这 些 维修 保养 计划 不 仅 会 友 到 车 主 手 里 ， 也 会 友 到 对 应 的 维修 店 。 店 家 可 以 
通过 该 信息 提前 安排 好 汽车 维修 时 间 ， 并 提前 准备 好 汽车 维修 所 需要 的 工具 、 需 
要 更 换 的 零 配件 等 ， 大 大 减少 维修 过 程 中 的 等 候 时 间 ， 也 能 很 好 地 提高 维修 效率 
和 服务 质量 。 此 外 ， 汽 车 维修 保养 信息 平 合 的 建立 还 可 以 保障 保养 的 质量 和 收费 
透明 化 。 未 来 的 汽车 将 记录 所 有 的 保养 记录 ， 对 负责 的 保养 人 员 与 材料 进行 完整 
的 存档 ， 这 样 车 主 对 汽车 的 所 有 你 养 项 目 就 一 目 了 然 了 ， 所 有 数据 信息 都 将 输入 
汽车 系统 ， 人 保有“ 证据”。 而 保养 平台 的 公开 推广 ， 也 将 逐步 推进 维修 保养 价格 的 
透明 化 。 将 所 有 保养 价格 与 质量 公开 给 每 一 位 消费 者 与 其 他 保养 店铺 ， 不 仅 使 所 
有 数据 一 目 了 然 ， 也 所 高 了 维修 保养 店 的 市 场 苋 争 效 果 。 

在 大 数据 时 代 ， 各 保险 公司 也 将 搜集 你 险 理赔 数据 ， 与 从 其 他 平台 搜集 到 次 
驶 员 敬 驶 特性 数据 结合 ， 利 用 复杂 的 数学 模型 ， 最 终 计 算 分 析出 客户 风险 级 别 ， 
以 此 作为 依据 对 客户 的 下 一 次 投保 进行 姑 活 的 处 理 ， 既 为 保险 公司 规避 了 风险 ， 
也 在 一 定 程 度 上 营 促 客户 座 惯 车 车 。 例 如 ， 如 果 客 户 日 党 行驶 数据 中 加 减速 的 人 次 
数 较 多 ， 加 速度 较 大 ， 则 从 一 定 程 度 上 反映 了 该 客户 要 驶 习惯 比较 激进 ， 有 可 能 
具有 较 高 的 风险 等 级 ， 那 么 在 保费 上 就 应 该 慎重 考 感 。 


6.2.2 未 来 交通 系统 一 一 智慧 出 行 网 络 


现 有 的 镶 达 交通 系统 是 针对 城市 交通 中 出 现 的 拥 增 、 停 车 设施 供 希 黎 盾 突出 、 
公交 车 和 出 租车 服务 与 监管 水 平 不 高 、 机 动车 交通 诱 号 水平 低 、 交 通 设 施 害 理 水 
平 不 局 、 桥 染 和 路 面 技术 状 况 监 测 广度 不 足 等 一 系列 问题 ， 通 过 部 普 大 量 车 载 移 
动 传 感 费 网 节点 和 路 边 固 定 传 感 占 网 市 所， 来 建设 一 批 基 于 物 联网 技术 的 秋 能 交 
通 业 务 应 用 系统 。 访 系统 通过 对 海量 信息 汇集 、 处 理 、 分 析 、 管 理 和 服务 的 智能 
交通 运输 物 联 网 综合 处 理 ， 构 建 广泛 互联 的 交通 要 系 感 知 网 络 ， 实 现 更 加 丰富 、 
更 加 准确 、 更 加 入 性 化 的 公众 信息 服务 ， 形 成 一 个 留意 和 谐 的 交通 出 行 环境 。 

随 看 知 芒 交 退 的 肥 展 ， 以 及 计算 机 计算 能 力 、 和 存储 能 力 的 提升 ， 大 数据 分 析 
在 镶 意 交通 中 将 起 到 越 来 越 重要 的 作用 。 综 合 考虑 实时 交通 数据 、 历 史 交 通 数据 、 
气象 数据 、 社 会 媒体 及 活动 数据 、 传 感 苍 数据 等 ， 通 过 轨迹 挖掘 、 交 通 决策 分 析 
等 ， 让 交通 运输 系统 具有 感知 、 预 测 以 及 解决 问题 的 能 力 ， 达 到 客运 和 员 运 的 需 
求 ， 最 大 化 地 合理 分 配 资 源 。 实 时 的 交通 环境 、 语 民 的 生活 习惯 以 及 仙 物 运输 的 
稳定 性 与 安全 性 也 逐渐 成 为 考虑 的 要 系 之 一 。 交 通 引 导 从 时 混 性 问 实 时 性 友 展 、 
从 倍 动 式 同 主动 式 发 展 ， 传 统 的 交通 信息 肥 布 方式 如 网 站 、 厂 播 、 电 视 等 缺乏 个 
性 化 和 和 针对 性 ， 在 将 来 会 逐渐 被 淘汰 ， 取 而 代 之 的 古 一 种 主动 交互 的 交通 信息 服 
务 模式 。 在 该 模式 下 , 交互 平台 每 阳 一 段 时 间 束 将 同和 车 辆 推送 一 次 交通 路 况 信息 ， 
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结合 路 段 的 速度 、 时 间 等 信息 进行 融合 ， 进 一 步 担 升 交 通路 况 信息 的 精度 及 获 兰 
面 。 此 外 ， 推 送 的 信息 还 可 以 为 驾 乘 人 员 提 供 特定 的 镶 能 化 应 用 和 服务 ， 根 据 不 
同时 间 和 客户 群体 精准 推送 。 

在 信息 时 代 ， 交 通 系 统 的 运营 和 维护 不 再 是 只 能 依赖 大 量 的 交通 警察 在 现实 
世界 里 来 加 奔波 去 维持 ， 我 们 要 做 的 只 是 一 切 交 给 数据 ， 一 切 交 给 计算 机 终端 。 
道路 拥挤 、 交 通 系 统 运载 能 力 不 足 是 阻碍 汽车 发 展 的 一 大 难题 ， 大 都 市 中 常常 出 
现 的 “ 慨 天 大 增 ” 成 为 人 们 的 趾 攀 。 而 大 数据 和 车 联网 技术 能 从 时 间 和 空间 维度 
提高 车 辆 对 周边 环境 的 感知 能 力 。 在 时 间 维 度 ， 通 过 互联 通信 ， 系 统 能 够 提前 获 
知 周边 车 辆 的 操作 信息 、 红 绿灯 等 交通 控制 系统 信息 以 及 气象 条 件 、 拥 堵 预 测 等 
更 长 期 的 未 来 状态 信息 。 在 空间 维度 ， 系 统 能 够 感知 交叉 路 口 育 区 、 弯 道 盲区 、 
车 辆 这 挡 训 区 等 位 置 的 环境 信息 ， 从 而 帮助 目 动 驾驶 系统 更 全 面 地 和 擎 握 周 边 交 通 
态势 。 在 出 发 或 行驶 过 程 中 ， 如 果 罗 驶 员 事 先知 道 了 每 条 城市 道路 的 拥堵 情况 ， 
则 路 线 选择 一 定 会 比 育 目 插 借 以 往 经 验 选 择 逢 路 要 好 很 多 。 

也 许 现 有 的 一 些 软件 已 经 部 分 实现 了 智能 交通 系统 的 茶 些 特性 ， 比 如 实时 奉 
看 路 况 ， 了 解 拥堵 情况 ， 但 古 在 新 的 智能 路 线 的 决 倘 选择 上 ， 还 是 有 很 多 车 驶 员 
的 主观 因素 。 举 个 简单 的 例子 ， 假 设 一 条 环 路 上 显示 的 是 较为 拥堵 ， 而 市 区 道路 
显示 的 是 通畅 ， 那 么 这 时 候 往 往 很 难 抉择 : 环 路 上 并 没有 红绿灯 ， 再 加 上 宽阔 的 
车 道 ， 其 最 终 到 达 目 的 地 的 用 时 不 一 定 比 走 市 区 通畅 道路 要 长 。 未 来 的 出 行 方案 
绝对 不 局 限于 了 解 每 一 条 道路 的 拥 培 情况 ， 毕 竞 镶 能 的 路 线 选 择 才 是 乔 能 出 行 方 
案 的 最 终 目 的 之 一 。 在 传 感 硕 遍 度 及 达 的 未 来 ， 将 会 有 更 多 的 路 况 信息 传递 到 大 
数据 云端 ， 比 如 车 流 情 况 、 车 流速 度 、 实 时 信号 灯 情 况 、 周 按 环 境 影 响 因 妹 力 至 
细微 到 通过 车 辆 种 类 情况 ， 再 结合 相同 条 件 下 的 过 往 数 据 ， 精 确 计 算出 耗 时 最 少 
的 线路 或 是 油耗 最 少 的 线路 等 ， 以 供 鸭 驶 员 选 择 。 

同时 ， 目 动 驾驶 技术 的 发 展 也 离 不 开 大 数据 与 车 联网 技术 ， 汽 车 可 以 利用 和 
联网 拉 术 收集 周围 汽车 的 运行 信息 以 及 周边 道路 的 拥挤 情况 、 红 绿灯 情况 等 ， 根 
据 周 围 车 辆 的 运行 情况 和 道路 环境 决定 是 含 超车、 变 逢 以 及 选择 更 合适 的 路 线 。 
车 联网 可 以 给 目 动 芍 驶 汽车 的 决策 提供 更 多 的 信息 , 使 其 能 够 做 出 更 正确 的 决策 ， 
提高 目 动 驾 驶 汽车 的 安全 水 平 。 

大 数据 影响 下 的 智能 交通 系统 ， 不 仅仅 缩短 了 鸭 驶 员 与 乘客 的 出 行 时 间 ， 对 
于 整个 城市 道路 资源 的 合理 利用 、 城 市 节能 减 排 效 末 的 提升 也 共有 很 大 的 意义 。 
此 外 ， 交 通 事故 友 生 时 的 救援 车 辆 引导 ， 给 其 余 车 辆 传递 避让 信息 ， 在 挽救 事故 
损失 、 争 取 救 援 时 间 方 面 也 具有 重要 的 意义 。 

将 来 镶 意 出 行 网 络 不 再 局 限于 汽车 ， 而 是 构建 海陆 空 一 体 的 乔 意 出 行 格局 。 在 
上 海 ， 已 经 初步 建立 起 了 一 个 智能 区 通信 息 三 级 平台 ， 其 一 级 平台 为 综合 交通 信息 
平台 ， 己 汇聚 逢 路 交通 、 公 共 交 通 、 对 外 交通 、 区 县 要 纽 等 各 类 交通 数据 259 项 ， 
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以 及 对 1000 条 公交 线路 、11 条 轨道 交通 线路 、700 个 营业 俘 车 场 、2 个 国际 机 场 、3 
座 铁路 客运 站 的 线路 分 布 、 实 时 泊位 、 极 班 等 动 祥 态 数 据 的 收集 。 每 年 数据 在 线 存 
储量 8T， 基 本 实现 了 2min 更 新 一 次 的 上 海 站 路 区 通信 息 的 采集 、 处 理 与 用 布 。 在 未 
来 ， 这 些 信 息 平 台 将 更 加 贴近 用 户 ， 除 了 基础 信息 之 外 ， 将 提供 更 多 的 私人 化 服务 。 

下 面 以 铁路 运输 方面 的 未 来 智 意 出 行为 例 。 未 来 的 铁路 知 营 出 行 服 务 ， 将 从 
旅客 踏 出 家 门 的 第 一 时 间 融 开始 进行 ， 直 到 旅客 到 达 目 的 地 的 下 杨 地 点 为 止 ， 在 
各 个 环节 都 可 以 设 定 相应 的 服务 项 目 。 从 出 友 阶 段 的 专车 接送 、 快 速 安检 、 乔 能 
候车 ， 到 车 上 根据 旅客 个 人 喜好 制定 的 个 性 化 服务 ， 以 及 络 合 旅客 号 体 状况 和 环 
境 因 系 的 贴心 化 服务 ， 到 站 后 的 专人 接送 、 快 速 出 站 服务 ， 还 有 根据 目的 地 城市 
的 天 气 状况 为 旅客 提供 雨伞 、 口 章 等 关怀 服务 ， 让 旅客 的 铁路 出 行 全 程 无 忱 。 此 
外 ， 铁 路 公司 将 联合 餐饮 、 酒 店 、 旅 游 风 景区 等 公司 进行 贴心 的 客运 延伸 服务 ， 
根据 旅 铬 的 过 往 出 行 数据 、 个 人 喜好 、 到 达 时 段 以 及 评价 ， 精 准 推送 目的 地 相关 
服务 信息 ， 制 定 符合 用 户 需 求 的 延伸 服务 产品 。 


6.2.3 ”未 来 社会 发 展 一 一 国计民生 


俗话 说 “要 致富 ， 先 修 路 ” 一 个 地 区 的 交通 基础 设施 的 建设 对 于 该 地 区 的 经 
济 发 展 起 到 了 重要 的 促进 作用 ， 交 通 设施 通 稼 被 认为 可 以 缩短 城市 间 的 距离 ， 改 
善 地 区 可 达 性 水 平 ， 推 动 区 域 间 经 济 、 社 会 、 文 化 等 方面 的 相互 作用 和 联系 ， 进 
而 提高 区 域 的 社会 经 济 发 展 潜力 及 扩大 经 济 活动 区 位 优势 。 交 通 的 繁 琳 与 否 影响 
着 当地 的 人 流量 、 物 流量 ， 而 丰富 的 人 流 和 快捷 的 物流 无 疑 是 经 济 发 展 的 助 推 剂 。 
从 人 口 流 动情 况 的 大 数据 观察 可 以 很 直观 地 体会 到 区 域 经 济 发 展 的 状况 ， 人 往 高 
处 走 ， 人 们 总 是 乐于 追逐 更 加 美好 的 生活 。 

一 则 关于 美国 人 口 迁 徙 情况 的 大 数据 调查 分 析 如 图 6-1 一 图 6-3 所 示 。 图 6-1 
中 展露 了 人 人口 迁移 的 起 终点 信息 ， 根 据 线段 的 密集 程度 ， 可 以 分 析出 美国 的 东西 
海岸 是 人 口 迁 移 的 重点 地 区 ， 尤 其 是 加 州 的 洛杉矶 、 旧 金山 和 纽约 附近 地 区 ， 线 
条 十 分 密集 。 显 然 ， 这 几 个 地 区 也 是 美国 经 济 最 发 达 、 最 繁忙 的 地 区 。 


























图 6-1 人 口 迁 徙 数据 原 图 
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图 6-2 美国 公路 交通 数据 图 





图 6-3” 人口 迁移 与 交通 情况 绑 定 分 析 图 


将 图 6-1 与 图 6-2 结合 得 到 图 6-3， 将 人 口 迁移 信息 与 道路 交通 信息 相 结 合 
进行 分 析 ， 使 得 数据 维度 得 到 提升 ， 数据 内 泗 更 为 丰富 。 从 图 6-3 可 以 清晰 看 出 ， 
东西 海 尾 及 商 部 的 公路 交通 流量 巨大 ， 非 党 繁忙 ， 而 北部 和 中 部 的 山地 则 线条 稀 
足 ， 同 样 ， 经 济 发 展 迟 组 其 到 倒退 的 五 大 湖 老 工业 区 也 不 再 有 昔日 的 床 光 。 通 过 
这 一 张 图 的 分 析 ， 束 能 大 致 得 出 美国 道路 交通 利用 情况 以 及 地 区 经 济 发 展 态 势 ， 
为 政府 的 宏观 调控 工作 提供 文 援 。 

在 未 来 ， 交 通 出 行 信息 将 不 仅仅 古人 流量 ,信息 维 度 将 更 加 丰富 ， 所 能 反映 
的 问题 也 将 更 加 精确 。 例 如 物流 热度 是 根据 物流 业 的 基础 设施 建设 程度 和 物流 业 
务 蚂 忙 程度 决定 的 ， 而 物流 企业 的 区 位 选择 具有 市 场 、 服 务 对 象 等 需求 指 癌 特征 
以 及 交通 区 位 指 癌 特征。 引入 物流 热度 信息 ， 对 不 同 尺 度 下 物流 热度 分 布 特征 进 
行 分 析 ， 可 以 充分 反映 出 区 域 经 济 实力 与 交通 区 位 的 大 异 ， 及 时 反映 出 物流 业 友 
展 的 区 域 不 平衡 ， 给 政府 提供 大 量 的 信息 以 及 决策 建议 ， 来 解决 物流 资源 优化 配 
置 难度 大 、 货 流 双 回流 动 不 平衡 等 问题 ， 减 少 物流 成 本 文 出 ， 从 而 提高 经 济 及 展 
2 

此 外 ， 综 合 一 段 时 间 内 的 交通 出 行 大 数据 ， 比 如 将 人 口 流量 、 车 辆 流量 、 轨 
过 区 通 流 量 、 空 洪流 量 等 大 数据 信息 叶 入 到 云 平台 ， 进 行 顷 密 快速 的 计算 ， 可 以 
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很 快 对 交通 出 行 领域 配套 设 施 的 建设 提出 指导 性 意见 ， 同 时 也 可 以 形成 周期 性 的 
数据 统计 报告 ， 从 寡 观 的 角度 严密 观察 社会 运行 和 经 济 有 展 的 状况 ， 使 得 政府 能 
够 更 加 全 和 面 地 向 握 当 前 经 济 发 展 状况 ， 也 更 加 及 时 果断 地 进行 调控 。 








本来 新 挑战 


在 未 来 的 交通 出 行 中 ， 大 数据 技术 将 为 智能 交通 的 及 展 冲 来 巨大 的 变化 ， 这 
征 由 大 数据 技术 的 特点 决定 的 。 大 数据 能 够 及 时 地 对 交通 大 数据 分 机 、 处 理 ， 做 
出 快速 啊 应 ， 从 而 帮助 人 们 快速 友 现 交通 寞 第 ， 方 便 交 通 管 理 。 大 数据 技术 具有 
局 效率 的 数据 挖掘 能 力 ， 能 快速 肥 现 大 量 交 通 数 据 中 的 内 在 规律 ， 从 而 提高 交通 
常理 的 运营 效率 以 及 道路 通行 能 力 。 大 数据 的 分 布 式 并 行 处 理 能 够 对 复杂 的 其 表 
进行 天 联 分 析 ， 可 以 文 撑 高 并 及 多 用 户 访问 ， 帮 助人 们 在 交通 祭 急 事件 中 快速 处 
置 、 多 方 协 作 ， 提 融 数 据 人 处理 能 力 。 大 数据 技术 的 预测 能 力 帮 助 用 户 预 完了 解 交 
通 拥 墙 情 况 ， 尺 量 避 开 拥 堵 路 段 ， 实 时 监控 交通 的 动态 运行 。 大 数据 技术 能 够 有 
效 地 解决 未 来 交通 中 所 面临 的 难题 ， 但 是 也 面临 厦 许 多 的 挑战 。 


6.3.1 数据 的 安全 性 


科技 友 展 日 新 月 异 ， 既 诞生 了 像 智能 手机 这 样 方便 全 人 类 的 友 明 ， 也 衍生 出 
本 电话 诈骗 、 电 话 推 销 等 诸多 问题 。 未 来 的 车 载 数 据 也 古 一 样 ， 既 有 着 重要 的 使 
用 价值 ， 也 会 带 来 一 系列 的 安全 性 问题 。 未 来 的 车 载 数 据 盗 甸 会 呈现 出 隐蔽 性 、 
快速 性 及 随时 性 的 特点 ， 数 据 安 全 将 成 为 汽车 大 数据 应 用 的 头等 大 事 。 

未 来 车 载 信息 的 缆 兰 面 之 广 足以 包括 消费 者 的 各 种 习惯 、 爱 好 和 其 他 基本 信 
恩 。 相 比 手 机 信息 泄露 ， 车 载 系统 被 盗 面 和 入 侵 将 造成 更 为 严重 的 后 琳 。 芋 载 系 
统 首 先 包 括 了 消费 者 经 名 出 入 的 地 点 ， 例 如 上 班 地 点 、 家 庭 住址、 家庭 成 员 活 动 
地 址 等 ， 使 用 汽车 通话 已 丝 不 是 新 鲜 的 技术 ， 因 此 车载 系统 还 包括 了 消费 者 与 家 
人 的 联系 方式 ; 当然 ， 未 来 使 用 汽车 支付 的 场所 除了 收费 站 以 外 还 将 增多 ， 因 此 
账户 信息 也 会 存在 汽车 里 ; 甚至 还 可 以 根据 消费 者 的 日 程 安 排 计 算出 消费 者 的 吾 
好 、 购 买 力 等 ， 使 汽车 成 为 新 一 轮 的 垃圾 信息 推广 的 重 灾区 。 

监管 平 侣 和 监管 条 例 还 需要 完善 和 改进 。 由 于 现行 法 律 的 沛 后 性 ， 消 费 者 在 
车 辆 上 遗留 的 很 多 信息 无 法 界定 古人 盏 为 隐私 ， 于 是 许多 和 车厂 和 软件 平台 在 这 样 的 
灰色 地 市 大 肆 搜 集 消 费 者 的 各 项 数据 。 如 何 界 定 哪些 数据 是 可 以 获取 的 ? 车 三 和 
企业 如 何 保 护 消 费 者 的 数据 ? 这 些 数 据 应 该 如 何 使 用 ? 现在 还 没有 完善 的 法 律 法 
规 体系 来 规范 这 些 操 作 ， 也 没有 一 个 专业 的 监 丢 管 理 部 门 来 处 理 这 些 问题 。 这 样 
台 使 消费 者 的 数据 处 在 一 个 无 人 监管 的 状态 下 ， 许 多 侵犯 消费 者 隐私 的 行为 无 法 
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从 法 律 上 加 以 制止 ， 因 此 我 们 应 当 加 快 建立 对 消费 者 数据 使 用 的 监管 机 制 ， 对 车 
三 或 者 其 他 平台 使 用 消费 者 数据 的 行为 进行 监管 ， 防 止 有 人 利用 这 些 数 据 进行 非 
法 的 活动 。 

尽管 可 以 预见 大 数据 将 给 我 们 的 交通 出 行 带 来 诸多 的 便利 ， 但 是 既往 的 教训 
告诉 我 们 ， 科 技 发 展 其 实 是 一 把 双 刃 剑 。 要 扩大 有 利 的 那 一 面 ， 防 范 不 利 的 那 一 
面 ， 扩 大 优势 ， 减 少 劣势 。 充 分 利用 好 交通 领域 大 数据 的 同时 维护 好 数据 安全 ， 
任 重 而 道 远 。 

6.3.2 ”数据 的 复杂 性 


在 未 来 的 交通 出 行 中 ， 各 种 类 型 的 信息 都 会 被 记录 成 为 数据 ， 包 括 罗 车 人 的 
行为 数据 、 天 气 路 况 、 铁 路 车 辆 运行 、 航 班 运 行 信息 等 ， 这 样 吏 会 导致 数据 量 的 
息 剧 上 升 。 同 时 ， 这 些 数据 的 种 类 也 十 分 复杂 ， 包 括 结构 化 、 半 结构 化 、 非 结构 
化 数据 ， 有 数字 信息 、 语 首 信息 、 图 文 信息 等 各 种 类 型 ,平台 需要 对 这 些 数 据 进 
行 及 时 有 效 的 接收 和 存储 。 这 就 对 数据 平台 接收 数据 、 和 存储 数据 的 能 力 拓 出 了 挑 
战 。 平 台 需 要 有 强大 、 可 扩展 的 数据 存储 能 力 ， 才 能 应 对 大 数据 时 代 的 挑战 。 

云 存 储 是 在 云 计算 概念 的 基础 上 及 展 起 来 的 一 种 新 的 存储 方式 ， 它 是 指 通过 
网 格 计 算 、 集 群 文件 系统 、 分 级 存储 等 现 有 技术 ， 将 网 络 中 大 量 的 存储 设备 通过 
便 件 /软件 的 方式 集合 在 一 起 ， 并 对 外 提供 标准 的 存储 接口 ， 以 供 个 人 或 企业 调用 
并 存储 数据 的 存储 方式 。 云 存储 对 于 使 用 者 来 说 ， 不 再 是 指示 一 个 具体 的 设备 ， 
而 是 指 一 个 由 许多 个 存储 设备 和 服务 如 所 构成 的 集合 体 。 使 用 者 不 是 使 用 汞 一 个 
存储 设备 ， 而 是 使 用 整个 云 存 储 系统 帝 来 的 一 种 数据 访问 服务 。 相 比 传统 的 存储 
方式 ， 云 存储 的 出 现 使 得 一 些 企业 或 个 人 不 需要 购买 价格 局 郧 的 存储 设备 ， 只 需 
要 文 付 较 少 的 费用 便 可 以 圣 受 近乎 无 限 的 存储 空间 。 云 存储 对 于 没有 中 够 能 力 搭 
建 大 数据 平台 但 是 却 有 数据 存储 需要 的 公司 、 机 构 来 说 是 一 个 很 好 的 服务 。 

但 是 数量 的 庞大 不 代表 着 质 量 的 捉 高 ， 在 大 量 的 数据 中 有 许多 是 无 用 甚至 错 
误 的 数据 ， 对 大 量 的 数据 进行 数据 清洗 ， 得 到 需要 的 数据 ， 也 是 我 们 需要 解决 的 


问题 。 
6.3.3 ”计算 的 复杂 性 


在 未 来 的 交通 系统 中 ， 要 想 对 大 量 的 交通 数据 进行 分 析 并 得 出 相应 的 结论 。 
需要 进行 复杂 的 运算 。 而 且 为 了 及 时 对 交通 系统 进行 调控 ， 处 理 数 据 的 速度 要 快 ， 
这 束 给 交通 大 数据 的 计算 市 来 了 很 大 的 挑战 。 

大 数据 计算 不 能 像 处 理 小 规模 数据 集 那 样 做 全 局 数据 的 统计 分 机 和 运 代 计 
算 ， 由 于 数据 量 的 庞大 ， 在 分 析 大 数据 时 ， 往 往 需 要 重新 审视 和 研究 它 的 可 计算 
性 、 计 算 的 复杂 性 和 求解 算法 。 大 数据 样本 量 巨大 ， 内 在 关联 密切 而 复 洒 ， 价 值 
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密度 分 布 很 不 均 习 ， 这 些 特征 对 建立 大 数据 计算 方法 提出 了 挑战 。 例如 ,对 于 PB 
级 的 数据 ， 即 使 只 有 线性 复杂 性 的 计算 也 难以 实现 ， 而 且 ， 由 于 数据 分 布 的 稀 玻 
性 ， 许 多 计算 可 能 都 会 成 为 无 效 运算 。 

大 数据 计算 本 质 上 是 在 给 定 的 时 间 、 空 间 、 计算 条 件 的 限制 下 ， 如何 实现 “ 算 
得 多 ”， 即 分 析出 尽 可 能 多 的 交通 系统 的 信息 。 从 “算得 快 ”到 “算得 多 ”， 考 虑 
计算 复杂 性 的 思维 馆 辑 有 很 大 的 转弯。 所谓“ 算得 多 ”， 并 不 是 计算 的 数据 量 越 大 
越 好 ， 而 十 需要 计算 出 尽 可 能 多 的 有 用 的 结果 。 需 要 探索 从 足 够 多 的 数据 ， 到 刚 
刚好 的 数据 ， 再 到 有 价值 的 数据 的 按 需 约 简 的 计算 方法 。 近 几 年 目 动 驾驶 汽车 取 
得 重大 进展 融 是 很 好 的 案例 。 


6.3.4 ”系统 的 复杂 性 


交通 系统 大 数据 对 计算 机 系统 的 运行 效率 和 能 耗 提出 了 苛刻 的 要 求 ， 因 为 交 
通 系 统 大 数据 分 析 需 要 消耗 巨大 的 计算 机 软 使 件 资源 ， 所 以 需要 对 处 理 系统 进行 
优化 。 大 数据 处 理 系 统 的 效能 评价 与 优化 问题 具有 挑战 性 ， 不 但 要 求 理 清 交通 系 
统 大 数据 的 计算 复杂 性 与 系统 效率 、 能 耗 间 的 天 系 ,还 要 毕 合 度量 系统 的 各 吐 率 、 
并 行 处 理 能 力 、 作 业 计 算 精 度 、 作 业 单 位 能 耗 等 多 种 效能 因素 。 

针对 大 数据 的 价值 稳 蓝 性 和 访问 弱 局 部 性 的 特 扣 ， 我 们 需要 研究 大 数据 的 分 
布 式 存储 和 处 理 架 构 。 

在 大 数据 应 用 中 ， 计 算 机 系统 的 负载 量 用 生 了 本 质 性 变化 ， 计 算 机 系统 结构 
需要 羊 命 性 的 重 构 。 信 息 系 统 需要 从 数据 围 者 处 理 器 转变 为 处 理 能 力 围 看 数据 转 ， 
关注 的 重点 不 是 数据 加 工 ， 而 是 数据 的 搬运 :系统 结构 设计 的 出 发 点 要 从 重视 单 
任务 的 完成 时 间 转 变 到 提高 系统 厨 吐 率 和 并 行 处 理 能 力 ， 并 及 执行 的 规模 要 提高 
到 10 亿 级 以 上 。 构 建 以 数据 为 中 心 的 计算 系统 的 基本 思路 是 从 根本 上 消除 不 必要 
的 数据 流动 ， 必 要 的 数据 搬运 也 应 由 “大 象 搬 木 头 ” 转 变 为 “蚂蚁 搬 大 米 ”。 

大 数据 撤 术 在 管理 未 来 交通 系 统 方 面 还 面临 着 许多 挑战 ， 但 是 随 者 大 数据 研 
完 的 进一步 深入 ， 相 信 这 些 问题 最 终 部 能 够 得 到 很 好 的 解决 。 未 来 交通 将 成 为 大 
数据 驱动 下 的 智 芒 交通 系统 。 
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近 几 年 来 ， 随 着 计算 机 与 信息 技术 的 
迅猛 发 展 和 普及 应 用 ,行业 应 用 系统 的 规模 
迅速 扩大 ， 行 业 应 用 所 产生 的 数据 呈 爆 炸 式 
增长 。 新 能 源 汽 车 运行 所 产生 的 数据 规模 极 
其 庞大 ， 车 辆 技术 和 大 数据 技术 的 结合 ， 和 全 
挖掘 出 更 有 价值 的 资源 和 财富 。 在 未 来 发 展 
中 ， 大 数据 与 车 辆 技术 的 结合 将 会 成 为 非常 
有 前 景 的 学 科 与 研究 领域 ， 需 要 大 量 的 人 才 
与 资源 进行 支撑 。 


本 书 系 统 地 介绍 了 新 能 源 汽车 数据 采 
集 、 和 存储 、 处 理 与 挖掘 流程 ， 辅 以 丰富 的 大 
数据 分 析 案 例 对 数据 挖掘 流程 进行 详细 的 展 
示 ， 俐 助 大 数据 方法 和 工具 从 不 同 角度 探索 
新 能 源 汽车 海量 数据 育 后 隐藏 的 价值 。 希 望 
本 书 能 够 起 到 抛砖引玉 的 作用 ， 为 从 事 车 联 
网 与 大 数据 分 析 工 作 的 研究 人 员 与 相关 工作 
者 提供 借鉴 和 参考 。 
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